数据集概述
本数据集基于生物学领域十篇全文论文构建,通过人工标注分析语篇片段类型与语言特征的关联。论文按特定标准选取,包含Voorhoeve相关、神经药理学及Genia语料库来源三类,为语言学与生物学交叉研究提供结构化标注数据。
文件详解
数据集包含八个文件,按功能分为四类,具体说明如下:
- 语料库参考文件:
- 170220_deWaard_Corpus.csv / 170220_deWaard_Corpus.xls:CSV与XLS格式,记录十篇标注论文的基础信息,字段包括作者、年份、期刊、语料库分组、研究领域及完整参考文献
- 带文本标注结果文件:
- 170223b_deWaard_DST_With_Text.csv / 170223b_deWaard_DST_With_Text.xls:CSV与XLS格式,包含语篇片段的全文文本及标注信息,字段示例有语篇片段文本(Seg_Text)、语篇片段类型(Seg_Type)等
- 编码标注结果文件:
- 170223b_deWaard_DST_Codes.csv / 170223b_deWaard_DST_Codes.csv:CSV与XLS格式,仅含数值编码的标注结果,便于统计处理
- 编码说明文件:
- 170223_deWaard_Value_Labels.csv / 170223_deWaard_Value_Labels.xls:CSV与XLS格式,数据字典文件,字段包括ColumnName(列名)、Value(数值)、Value Label(标签)、Description(描述),用于解释编码含义(如Seg_Type的数值对应语篇片段类型)
适用场景
- 计算语言学研究:分析生物学学术文本中语篇片段类型与语言特征的关联规律
- 学术写作研究:探究生物学论文的语篇结构与语言表达特点
- 自然语言处理应用:为学术文本语篇分析模型提供标注训练数据
- 科学传播学研究:辅助研究科学信息在学术文本中的组织与呈现方式