数据集概述
本数据集为Softcite Dataset Version 2,包含4971篇英文开放获取科学文献的软件提及标注,涵盖生命科学与经济学领域,共约4600万词。标注经多阶段人工标注与冲突协调,新增软件类型细分(环境、组件、隐式)及编程语言标注,是科学文献软件提及分析的金标准语料库。
文件详解
- 压缩包文件
- 文件名称:
softcite_dataset_v2.zip
- 文件格式:ZIP
- 内容结构:包含XML标注语料、JSON转换文件及Python转换脚本,具体子文件如下:
- XML语料(xml/目录):
softcite_corpus-full.tei.xml:完整语料库,每篇文献为一个TEI条目,含软件提及段落标注
softcite_corpus-holdout-full.tei.xml:20%文献组成的测试集,含完整文本与软件提及标注
softcite_corpus-working.tei.xml:训练集,排除测试集后的剩余80%文献
- JSON转换文件(json/目录):对应XML文件的JSON格式版本,文件名与XML一致但后缀为.json,用偏移量标识标注位置
- 转换脚本(scripts/目录):
TEI2LossyJSON.py,用于将TEI XML转换为JSON格式
数据来源
Softcite Dataset Version 2官方发布
适用场景
- 科学文献软件提及识别研究:用于训练和评估软件名称、版本、发布方等实体的自动识别模型
- 学术文本标注标准验证:基于金标准标注评估软件提及标注工具的性能
- 跨学科软件使用分析:对比生命科学与经济学领域的软件使用差异及趋势
- 开放科学政策研究:通过软件提及分布分析学术研究的可重复性与开源软件依赖情况