Softcite数据集_研究出版物中的软件提及标注数据集

数据集概述

该数据集是研究出版物中软件提及的标注数据集,包含生物医学和经济学领域开放获取文献中的软件提及标注,涉及软件名称、版本、访问URL等信息,以TEI/XML格式存储,还包含描述数据集设计与创建过程的论文。

文件详解

  • 文件名称:howisonlab/softcite-dataset-v1.0.zip
  • 文件格式:ZIP压缩包
  • 压缩包内包含:
  • softcite_corpus-full.tei.xml:TEI/XML格式的语料库文件,包含标注的软件提及(名称、版本、访问URL等)及无软件提及的出版物信息
  • Softcite_Dataset_Description_RC.pdf:数据集描述论文预印本,介绍设计考量与创建过程

适用场景

  • 学术信息检索系统优化:提升学术数据库中研究软件的可见性
  • 软件实体识别研究:为软件实体识别模型开发提供标注数据
  • 学术软件使用分析:研究生物医学和经济学领域学术研究中的软件使用情况
  • 信息检索工具开发:促进软件信息检索工具的互操作性与协作
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.78 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。