数据集概述
本数据集包含ODDPubb文本挖掘算法的分析结果及人工分析发现,基于2022年林雪平大学(LiU)在机构知识库DiVA中平行发表的所有文章全文PDF,通过ODDPubb算法分析数据共享程度及共享存储库,并结合人工分析验证数据共享声明、评估数据可用性及识别存储库,共包含3个文件。
文件详解
- readme.txt
- 文件格式:TXT
- 字段映射介绍:包含数据集基本信息,如标题、描述、生成时间及作者等元数据,说明数据集来源与分析方法。
- oddpub_manual_classification.xlsx
- 文件格式:XLSX
- 字段映射介绍:人工分析结果文件,用于记录对数据共享声明的确认、数据可用性评估及存储库识别的手动分类信息。
- oddpub_results.csv
- 文件格式:CSV
- 字段映射介绍:包含article(文章标识)、is_open_data(是否开放数据)、open_data_category(开放数据类别)、is_open_code(是否开放代码)、open_data_statements(开放数据声明)、open_code_statements(开放代码声明)等字段,记录ODDPubb算法分析结果。
数据来源
林雪平大学机构知识库DiVA及ODDPubb文本挖掘算法(https://github.com/quest-bih/oddpub)
适用场景
- 学术数据共享行为研究:分析LiU研究人员2022年论文的数据共享现状及存储库偏好。
- 文本挖掘算法验证:对比ODDPubb算法结果与人工分析,评估算法在识别数据共享声明中的准确性。
- 学术机构数据管理评估:为LiU优化数据共享政策、提升知识库数据管理水平提供参考。
- 开放科学趋势分析:探究计算机科学领域研究人员对开放数据与开放代码的接受度及实践情况。