数据集概述
本数据集为硕士论文“研究数据仓库大小属性质量评估”的代码与数据,包含re3data仓库记录的大小属性数据分析、个体仓库案例研究相关的文件,涉及数据提取、归一化、模式分类及质量因素检测等内容,共9个文件。
文件详解
- 数据文件(共5个)
- 文件名称:repository_info_v1.csv、repository_info_v2.csv、repository_info_v3.csv、repository_info_v4.csv、repository_info_v3.xlsx
- 文件格式:CSV(4个)、XLSX(1个)
- 字段映射介绍:包含re3data.orgIdentifier(仓库标识)、size_number(大小数值)、size_unit(大小单位)、repositoryName(仓库名称)、repositoryURL(仓库链接)等与研究数据仓库属性相关的字段
- 代码文件(共3个)
- 文件名称:re3data_analysis.ipynb、re3data_extract.ipynb、re3data_normalize.ipynb
- 文件格式:IPYNB
- 字段映射介绍:分别对应re3data数据的分析、提取、归一化处理代码
- 文档文件(共1个)
- 文件名称:documentation.txt
- 文件格式:TXT
- 字段映射介绍:描述数据与代码的生命周期,对应论文方法论章节内容
数据来源
硕士论文“Does size matter? Quality assessment of the size property in research data repositories”
适用场景
- 研究数据仓库质量评估: 分析大小属性在仓库中的语义概念、可检测的质量因素及优化措施
- 数据仓库元数据研究: 基于re3data记录的仓库属性数据,探究元数据质量特征
- 数据处理方法论验证: 验证研究数据提取、归一化、模式分类的方法有效性
- 学术论文辅助支撑: 为研究数据仓库大小属性相关的论文提供实证数据支持