数据集概述
本数据集是论文《全球公共代码贡献性别差异》的复制数据包,包含复制研究结果所需的软件工具、初始数据文件及处理脚本,支持从数据导出、清理到性别检测、区域分析的全流程复现,为验证公共代码贡献中的性别差异研究提供完整资源。
文件详解
数据集包含文档、压缩包和脚本文件,具体说明如下:
- 文档文件:
- README.html、README.md:格式为HTML和Markdown,详细描述复制流程、前提条件、数据处理步骤及脚本使用方法。
- 压缩包文件:
- replication-package.zip:可能包含复制研究所需的全部脚本、初始数据文件(如names.tab、zones.acc.tab等)及处理后的中间数据文件。
- 数据文件(初始及处理生成):
- 初始数据文件:names.tab(各国姓名及频率)、zones.acc.tab(国家/地区、时区、人口及世界区域)、c_c.tab(ccTLD实体与世界区域匹配)
- 处理生成文件:commits.csv.zst、authors.csv.zst(从swh-replica导出)、authors--clean.csv.zst(清理后作者数据)、authors--plausible.csv.zst(过滤合理姓名后数据)、author-fullnames-gender.csv.zst(性别检测结果)、commit_zones.tab.zst(区域检测结果)等
- 图表文件:authors_zones_1.pdf、authors_zones_2.pdf、authors_zones_10.pdf(已生成的性别比例堆叠图)
- 脚本文件:
- 数据处理脚本:export.sh(导出数据)、cleanup.sh(清理作者数据)、filter_names.py(过滤姓名)、guess_gender.py(性别检测)、assign_world_zone.py(区域检测)等
- 数据库脚本:extract_commits.sql(提取提交数据)、import_data.sh(导入数据到数据库)、extract_data.sql(提取分析数据)
- 图表生成脚本:create_charts.sh(生成图表)
数据来源
Software Heritage
适用场景
- 软件工程研究:复现公共代码贡献中的性别差异分析结果
- 开源社区研究:分析全球开源贡献者的性别分布及区域特征
- 数据处理方法论研究:参考大规模代码贡献数据的清理、性别检测及区域匹配流程
- 性别平等研究:探究技术领域公共代码贡献中的性别代表性问题