数据集概述
本数据集是AffRoDB,包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry(ROR)标识符的人工整理映射。每条记录经专家评估,包含出版物DOI、原始机构字符串、专家判断及最终ROR ID,基于2024年1月ROR数据库版本构建,用于机构隶属关系消歧方法的评估与基准测试。
文件详解
- 文件名称:datafile.json
- 文件格式:JSONL
- 字段映射介绍:每条JSON对象包含四个核心字段:
- raw_affiliation_string:原始机构隶属关系字符串
- extracted_dois:提取该机构信息的DOI数组
- expert_judgements:专家评估数组,每个对象含expert_id(专家ID)、matches(含exact和ancestor匹配数组)
- final_judgement:最终评估结果,含exact(精确匹配ROR ID数组)、ancestor(父机构匹配ROR ID数组)
适用场景
- 机构隶属关系消歧方法评估: 作为高质量基准数据集,测试学术论文机构字符串到ROR标识符的自动映射算法性能。
- 学术元数据分析: 整合机构隶属关系数据,支持科研合作网络、机构学术产出等研究。
- 开放学术基础设施优化: 为Crossref、ROR等学术基础设施提供机构识别映射的参考数据。
- 科研管理决策: 辅助机构统计本单位学者发表成果、跨机构合作情况等管理需求。