数据集概述
本数据集是论文《开放生物学家的第二份工作:数据管理员的日常生活》的补充材料,包含数据整理用Python脚本、README模板、源数据信息追踪表及FAIR数据集示例图,共4个文件,支持开放科学中的数据管理与共享实践。
文件详解
- Python_scripts.zip
- 文件格式:ZIP
- 字段/内容介绍:包含4个Python脚本,用于数据清洗与组织:add_headers.py(为CSV文件自动添加指定表头,输出文件带"_with_headers"后缀)、count_NaN_values.py(统计CSV文件含空值的行数并输出空值位置)、remove_rowsNaN_file.py(移除单个CSV文件的空值行,输出文件带"_dropNaN"后缀)、remove_rowsNaN_list.py(移除多个CSV文件的空值行,输出文件带"_dropNaN"后缀)
- README_template.txt
- 文件格式:TXT
- 字段/内容介绍:数据集README文件模板,含数据集描述、元数据、使用说明等可选填写项,帮助用户规范记录数据集信息
- template_for_source_data_information.xlsx
- 文件格式:XLSX
- 字段/内容介绍:源数据信息追踪表,用于帮助作者记录每个图表对应的数据源位置、数据集描述链接等信息
- Supplementary_Figure_1.tif
- 文件格式:TIF
- 字段/内容介绍:Zenodo平台上共享的数据集示例图,标注了实现FAIR原则(可发现性、可访问性、互操作性、可重用性)的关键元素
数据来源
Wellcome Open Research发表的论文《Daily life in the Open Biologist’s second job, as a Data Curator》
适用场景
- 开放科学数据管理实践:用于指导研究人员规范整理、描述和共享数据集,提升数据FAIR性
- 数据清洗自动化:利用Python脚本批量处理CSV文件的表头添加、空值统计与移除
- 数据集文档标准化:使用README模板生成规范的数据集说明文档
- 研究数据溯源管理:通过源数据信息追踪表记录图表与数据源的关联关系
- FAIR数据原则教学:以示例图讲解数据集如何满足可发现性、可访问性、互操作性和可重用性要求