Crossref_Based_2024_dump机构ROR匹配错误基准数据集

数据集概述

本数据集包含326条Crossref 2024年4月数据中机构名称与ROR ID匹配错误的记录,经人工校验筛选,排除部分低参考价值的特殊问题条目。数据可作为机构匹配算法的基准测试集,用于评估学术数据中机构名称与ROR ID的匹配准确性。

文件详解

  • 文件名称:crossref_2024_ror_false_matches.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含DOI(文献数字对象标识符)、Affiliation_Name(机构名称)、ROR_ID(机构ROR标识符)、ROR_Display(ROR ID对应的显示名称)、Status(状态,均为“manually curated false match”)
  • 文件名称:Problematic ROR-Affiliation Names in Crossref 2024 Dump.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含主文件的所有信息,额外补充人工校验过程中的注释和详细记录

数据来源

CrossRef 2024年4月公开数据文件、ROR Release v1.59、Wikidata数据集

适用场景

  • 学术数据匹配算法评估: 作为基准数据集,测试机构名称与ROR ID匹配算法的准确性和鲁棒性
  • 学术元数据质量优化: 分析机构名称与ROR ID匹配错误的类型和模式,指导Crossref等学术数据库的元数据质量提升
  • 机构标识标准化研究: 研究学术文献中机构名称的多样性及其与权威标识(如ROR)的映射问题
  • 学术数据清洗工具开发: 为开发学术数据清洗工具提供真实的错误案例,优化工具的错误识别能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.15 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。