数据集概述
本数据集存储oc_validator和oc_monitor两款软件的评估实验材料,包含两个应用案例:使用Matilda的引用数据与书目元数据评估oc_validator,以及使用OpenCitations Meta三元组存储的当前(2025年4月15日)可用数据评估oc_monitor。数据集共含11个文件,支持软件验证过程的复现与结果分析。
文件详解
- oc_validator评估材料(Matilda数据应用)
- 文件名称:matilda_metadata.csv
- 文件格式:CSV
- 字段映射介绍:包含Matilda的书目元数据,字段包括id、title、author、pub_date、venue、volume、issue、page、type、publisher、editor等,作为oc_validator的输入数据
- 文件名称:matilda_citations.csv
- 文件格式:CSV
- 字段映射介绍:包含Matilda的引用数据,字段为citing_id(引用文献ID)、cited_id(被引文献ID),作为oc_validator的输入数据
- 文件名称:matilda.ipynb
- 文件格式:IPYNB
- 字段映射介绍:Python笔记本,记录oc_validator在Matilda数据上的使用流程,支持实验复现
- 文件名称:out_validate_meta.json
- 文件格式:JSON
- 字段映射介绍:oc_validator验证matilda_metadata.csv的机器可读完整结果报告
- 文件名称:meta_validation_summary.txt
- 文件格式:TXT
- 字段映射介绍:oc_validator验证matilda_metadata.csv的人类可读结果摘要
- 文件名称:out_validate_cits.json
- 文件格式:JSON
- 字段映射介绍:oc_validator验证matilda_citations.csv的机器可读完整结果报告
- 文件名称:cits_validation_summary.txt
- 文件格式:TXT
- 字段映射介绍:oc_validator验证matilda_citations.csv的人类可读结果摘要,含错误类型及数量(如br_id_existence问题)
- 文件名称:results.xlsx
- 文件格式:XLSX
- 字段映射介绍:电子表格,以表格形式呈现元数据与引用数据的验证报告,包含各类错误的统计计数
- oc_monitor评估材料(OpenCitations Meta数据应用)
- 文件名称:ijdl_meta_monitor_config.json
- 文件格式:JSON
- 字段映射介绍:oc_monitor流程的配置文件,含endpoint(端点)、tests(测试)等键值对,包含待执行的SPARQL查询
- 文件名称:monitor_oc_meta_april2025.ipynb
- 文件格式:IPYNB
- 字段映射介绍:Python笔记本,记录oc_monitor在OpenCitations Meta实时三元组存储上的使用流程,支持实验复现
- 文件名称:ijdl_meta_monitor_results.json
- 文件格式:JSON
- 字段映射介绍:oc_monitor在OpenCitations Meta数据(2025年4月)上运行的机器可读完整输出,含endpoint、collection、datetime、running_time、config_fp、monitoring_results等键值对
适用场景
- 学术数据验证工具评估:用于分析oc_validator对书目元数据与引用数据的验证能力,识别数据错误类型(如标识符存在性问题)
- 学术引用数据质量监测:通过oc_monitor评估OpenCitations Meta三元组存储的数据质量,支持学术数据资源的可靠性分析
- 软件实验复现研究:基于IPYNB笔记本复现oc_validator与oc_monitor的评估流程,验证软件性能
- 学术数据错误分析:通过验证结果统计各类数据错误的分布特征,为学术数据清洗提供参考
- 元数据标准合规性检查:利用oc_validator的验证结果,评估Matilda元数据对学术元数据标准的合规程度