全球公共代码贡献性别差异复制数据包

数据集概述

本数据集是论文《全球公共代码贡献性别差异》的复制数据包,包含复制研究结果所需的软件工具、初始数据文件及处理脚本,支持从数据导出、清理到性别检测、区域分析的全流程复现,为验证公共代码贡献中的性别差异研究提供完整资源。

文件详解

数据集包含文档、压缩包和脚本文件,具体说明如下: - 文档文件: - README.html、README.md:格式为HTML和Markdown,详细描述复制流程、前提条件、数据处理步骤及脚本使用方法。 - 压缩包文件: - replication-package.zip:可能包含复制研究所需的全部脚本、初始数据文件(如names.tab、zones.acc.tab等)及处理后的中间数据文件。 - 数据文件(初始及处理生成): - 初始数据文件:names.tab(各国姓名及频率)、zones.acc.tab(国家/地区、时区、人口及世界区域)、c_c.tab(ccTLD实体与世界区域匹配) - 处理生成文件:commits.csv.zst、authors.csv.zst(从swh-replica导出)、authors--clean.csv.zst(清理后作者数据)、authors--plausible.csv.zst(过滤合理姓名后数据)、author-fullnames-gender.csv.zst(性别检测结果)、commit_zones.tab.zst(区域检测结果)等 - 图表文件:authors_zones_1.pdf、authors_zones_2.pdf、authors_zones_10.pdf(已生成的性别比例堆叠图) - 脚本文件: - 数据处理脚本:export.sh(导出数据)、cleanup.sh(清理作者数据)、filter_names.py(过滤姓名)、guess_gender.py(性别检测)、assign_world_zone.py(区域检测)等 - 数据库脚本:extract_commits.sql(提取提交数据)、import_data.sh(导入数据到数据库)、extract_data.sql(提取分析数据) - 图表生成脚本:create_charts.sh(生成图表)

数据来源

Software Heritage

适用场景

  • 软件工程研究:复现公共代码贡献中的性别差异分析结果
  • 开源社区研究:分析全球开源贡献者的性别分布及区域特征
  • 数据处理方法论研究:参考大规模代码贡献数据的清理、性别检测及区域匹配流程
  • 性别平等研究:探究技术领域公共代码贡献中的性别代表性问题
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.78 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。