Hugging_Face模型文档数据集_偏差与许可证的实证研究论文数据集

数据集概述

本数据集是论文《How do Hugging Face Models Document Datasets, Bias, and Licenses? An Empirical Study》的复现包,包含研究相关的数据集与脚本,支持复现论文中关于Hugging Face模型文档规范的实证分析结果。

文件详解

该数据集按根目录及研究问题(RQ1-RQ3)分类组织,具体说明如下: - 根目录文件: - statistics.r:R脚本,用于计算使用量与下载量的相关性,以及RQ1/RQ2的评分者间一致性 - modelsInfo.zip:压缩文件,包含所有下载的JSON格式模型卡片 - script:目录,包含数据收集与处理脚本(详见目录内README) - Dataset目录文件: - Dataset_HF-models-list.csv:Hugging Face模型分析列表 - Dataset_github-prj-list.txt:使用transformers库的GitHub项目列表 - Dataset_github-Prj_model-Used.csv:项目与模型的使用配对数据 - Dataset_prj-num-models-reused.csv:各GitHub项目使用的模型数量 - Dataset_model-download_num-prj_correlation.csv:模型名称、任务、复用项目数及下载量数据 - RQ1目录文件: - RQ1_dataset-list.txt:Hugging Face数据集列表 - RQ1_datasetSample.csv:数据集手动分析的模型样本集 - RQ1_analyzeDatasetTags.py:分析模型标签中数据集声明的Python脚本(需解压modelsInfo.zip) - RQ1_countDataset.py:处理模型标签分析结果的Python脚本,输出数据集声明类型 - RQ1_datasetTags.csv:模型标签分析结果文件 - RQ1_dataset_usage_count.csv:数据集声明类型统计结果文件 - RQ2目录文件: - tableBias.pdf:模型任务偏差类型统计表 - RQ2_bias_classification_sheet.csv:偏差手动标注结果 - RQ2_isBiased.csv:偏差文档声明的评分者间一致性计算文件 - RQ2_biasAgrLabels.csv:偏差类别评分者间一致性计算文件 - RQ2_final_bias_categories_with_levels.csv:模型偏差类别层级数据 - RQ3目录文件: - RQ3_LicenseValidation.csv:许可证样本手动验证数据 - RQ3_{NETWORK-RESTRICTIVE|RESTRICTIVE|WEAK-RESTRICTIVE|PERMISSIVE}-license-list.txt:不同许可性的许可证列表 - RQ3_prjs_license.csv:项目许可证标签与名称数据 - RQ3_models_license.csv:模型许可证存在性及类型数据 - RQ3_model-prj-license_contingency_table.csv:模型与项目许可证使用列联表 - RQ3_models_prjs_licenses_with_type.csv:项目-模型配对的许可证及许可性层级数据

适用场景

  • 自然语言处理研究:复现Hugging Face模型文档规范的实证分析结果
  • 开放数据集治理:研究模型数据集、偏差及许可证的文档实践
  • 学术论文复现:支持相关论文研究结果的验证与扩展分析
  • 机器学习伦理研究:分析模型偏差文档的现状与规范需求
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 136.36 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。