Softcite_Based_科学文献软件提及标注数据集_Version2

数据集概述

本数据集为Softcite Dataset Version 2,包含4971篇英文开放获取科学文献的软件提及标注,涵盖生命科学与经济学领域,共约4600万词。标注经多阶段人工标注与冲突协调,新增软件类型细分(环境、组件、隐式)及编程语言标注,是科学文献软件提及分析的金标准语料库。

文件详解

  • 压缩包文件
  • 文件名称:softcite_dataset_v2.zip
  • 文件格式:ZIP
  • 内容结构:包含XML标注语料、JSON转换文件及Python转换脚本,具体子文件如下:
  • XML语料(xml/目录):
  • softcite_corpus-full.tei.xml:完整语料库,每篇文献为一个TEI条目,含软件提及段落标注
  • softcite_corpus-holdout-full.tei.xml:20%文献组成的测试集,含完整文本与软件提及标注
  • softcite_corpus-working.tei.xml:训练集,排除测试集后的剩余80%文献
  • JSON转换文件(json/目录):对应XML文件的JSON格式版本,文件名与XML一致但后缀为.json,用偏移量标识标注位置
  • 转换脚本(scripts/目录):TEI2LossyJSON.py,用于将TEI XML转换为JSON格式

数据来源

Softcite Dataset Version 2官方发布

适用场景

  • 科学文献软件提及识别研究:用于训练和评估软件名称、版本、发布方等实体的自动识别模型
  • 学术文本标注标准验证:基于金标准标注评估软件提及标注工具的性能
  • 跨学科软件使用分析:对比生命科学与经济学领域的软件使用差异及趋势
  • 开放科学政策研究:通过软件提及分布分析学术研究的可重复性与开源软件依赖情况
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 24.04 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。