数据集

语篇片段类型与语言特征关联数据集

数据集概述

本数据集基于生物学领域十篇全文论文构建，通过人工标注分析语篇片段类型与语言特征的关联。论文按特定标准选取，包含Voorhoeve相关、神经药理学及Genia语料库来源三类，为语言学与生物学交叉研究提供结构化标注数据。

文件详解

数据集包含八个文件，按功能分为四类，具体说明如下： - 语料库参考文件： - 170220_deWaard_Corpus.csv / 170220_deWaard_Corpus.xls：CSV与XLS格式，记录十篇标注论文的基础信息，字段包括作者、年份、期刊、语料库分组、研究领域及完整参考文献 - 带文本标注结果文件： - 170223b_deWaard_DST_With_Text.csv / 170223b_deWaard_DST_With_Text.xls：CSV与XLS格式，包含语篇片段的全文文本及标注信息，字段示例有语篇片段文本（Seg_Text）、语篇片段类型（Seg_Type）等 - 编码标注结果文件： - 170223b_deWaard_DST_Codes.csv / 170223b_deWaard_DST_Codes.csv：CSV与XLS格式，仅含数值编码的标注结果，便于统计处理 - 编码说明文件： - 170223_deWaard_Value_Labels.csv / 170223_deWaard_Value_Labels.xls：CSV与XLS格式，数据字典文件，字段包括ColumnName（列名）、Value（数值）、Value Label（标签）、Description（描述），用于解释编码含义（如Seg_Type的数值对应语篇片段类型）

适用场景

计算语言学研究：分析生物学学术文本中语篇片段类型与语言特征的关联规律
学术写作研究：探究生物学论文的语篇结构与语言表达特点
自然语言处理应用：为学术文本语篇分析模型提供标注训练数据
科学传播学研究：辅助研究科学信息在学术文本中的组织与呈现方式

数据与资源

4bh33fdx4v-3.zipZIP
0.56 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.56 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。