数据集概述
本数据集包含326条Crossref 2024年4月数据中机构名称与ROR ID匹配错误的记录,经人工校验筛选,排除部分低参考价值的特殊问题条目。数据可作为机构匹配算法的基准测试集,用于评估学术数据中机构名称与ROR ID的匹配准确性。
文件详解
- 文件名称:
crossref_2024_ror_false_matches.tsv
- 文件格式:TSV
- 字段映射介绍:包含DOI(文献数字对象标识符)、Affiliation_Name(机构名称)、ROR_ID(机构ROR标识符)、ROR_Display(ROR ID对应的显示名称)、Status(状态,均为“manually curated false match”)
- 文件名称:
Problematic ROR-Affiliation Names in Crossref 2024 Dump.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含主文件的所有信息,额外补充人工校验过程中的注释和详细记录
数据来源
CrossRef 2024年4月公开数据文件、ROR Release v1.59、Wikidata数据集
适用场景
- 学术数据匹配算法评估: 作为基准数据集,测试机构名称与ROR ID匹配算法的准确性和鲁棒性
- 学术元数据质量优化: 分析机构名称与ROR ID匹配错误的类型和模式,指导Crossref等学术数据库的元数据质量提升
- 机构标识标准化研究: 研究学术文献中机构名称的多样性及其与权威标识(如ROR)的映射问题
- 学术数据清洗工具开发: 为开发学术数据清洗工具提供真实的错误案例,优化工具的错误识别能力