数据集概述
本数据集是论文《How do Hugging Face Models Document Datasets, Bias, and Licenses? An Empirical Study》的复现包,包含研究相关的数据集与脚本,支持复现论文中关于Hugging Face模型文档规范的实证分析结果。
文件详解
该数据集按根目录及研究问题(RQ1-RQ3)分类组织,具体说明如下:
- 根目录文件:
- statistics.r:R脚本,用于计算使用量与下载量的相关性,以及RQ1/RQ2的评分者间一致性
- modelsInfo.zip:压缩文件,包含所有下载的JSON格式模型卡片
- script:目录,包含数据收集与处理脚本(详见目录内README)
- Dataset目录文件:
- Dataset_HF-models-list.csv:Hugging Face模型分析列表
- Dataset_github-prj-list.txt:使用transformers库的GitHub项目列表
- Dataset_github-Prj_model-Used.csv:项目与模型的使用配对数据
- Dataset_prj-num-models-reused.csv:各GitHub项目使用的模型数量
- Dataset_model-download_num-prj_correlation.csv:模型名称、任务、复用项目数及下载量数据
- RQ1目录文件:
- RQ1_dataset-list.txt:Hugging Face数据集列表
- RQ1_datasetSample.csv:数据集手动分析的模型样本集
- RQ1_analyzeDatasetTags.py:分析模型标签中数据集声明的Python脚本(需解压modelsInfo.zip)
- RQ1_countDataset.py:处理模型标签分析结果的Python脚本,输出数据集声明类型
- RQ1_datasetTags.csv:模型标签分析结果文件
- RQ1_dataset_usage_count.csv:数据集声明类型统计结果文件
- RQ2目录文件:
- tableBias.pdf:模型任务偏差类型统计表
- RQ2_bias_classification_sheet.csv:偏差手动标注结果
- RQ2_isBiased.csv:偏差文档声明的评分者间一致性计算文件
- RQ2_biasAgrLabels.csv:偏差类别评分者间一致性计算文件
- RQ2_final_bias_categories_with_levels.csv:模型偏差类别层级数据
- RQ3目录文件:
- RQ3_LicenseValidation.csv:许可证样本手动验证数据
- RQ3_{NETWORK-RESTRICTIVE|RESTRICTIVE|WEAK-RESTRICTIVE|PERMISSIVE}-license-list.txt:不同许可性的许可证列表
- RQ3_prjs_license.csv:项目许可证标签与名称数据
- RQ3_models_license.csv:模型许可证存在性及类型数据
- RQ3_model-prj-license_contingency_table.csv:模型与项目许可证使用列联表
- RQ3_models_prjs_licenses_with_type.csv:项目-模型配对的许可证及许可性层级数据
适用场景
- 自然语言处理研究:复现Hugging Face模型文档规范的实证分析结果
- 开放数据集治理:研究模型数据集、偏差及许可证的文档实践
- 学术论文复现:支持相关论文研究结果的验证与扩展分析
- 机器学习伦理研究:分析模型偏差文档的现状与规范需求