语篇片段类型与语言特征关联数据集

数据集概述

本数据集基于生物学领域十篇全文论文构建,通过人工标注分析语篇片段类型与语言特征的关联。论文按特定标准选取,包含Voorhoeve相关、神经药理学及Genia语料库来源三类,为语言学与生物学交叉研究提供结构化标注数据。

文件详解

数据集包含八个文件,按功能分为四类,具体说明如下: - 语料库参考文件: - 170220_deWaard_Corpus.csv / 170220_deWaard_Corpus.xls:CSV与XLS格式,记录十篇标注论文的基础信息,字段包括作者、年份、期刊、语料库分组、研究领域及完整参考文献 - 带文本标注结果文件: - 170223b_deWaard_DST_With_Text.csv / 170223b_deWaard_DST_With_Text.xls:CSV与XLS格式,包含语篇片段的全文文本及标注信息,字段示例有语篇片段文本(Seg_Text)、语篇片段类型(Seg_Type)等 - 编码标注结果文件: - 170223b_deWaard_DST_Codes.csv / 170223b_deWaard_DST_Codes.csv:CSV与XLS格式,仅含数值编码的标注结果,便于统计处理 - 编码说明文件: - 170223_deWaard_Value_Labels.csv / 170223_deWaard_Value_Labels.xls:CSV与XLS格式,数据字典文件,字段包括ColumnName(列名)、Value(数值)、Value Label(标签)、Description(描述),用于解释编码含义(如Seg_Type的数值对应语篇片段类型)

适用场景

  • 计算语言学研究:分析生物学学术文本中语篇片段类型与语言特征的关联规律
  • 学术写作研究:探究生物学论文的语篇结构与语言表达特点
  • 自然语言处理应用:为学术文本语篇分析模型提供标注训练数据
  • 科学传播学研究:辅助研究科学信息在学术文本中的组织与呈现方式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.56 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。