HuggingFace机器学习模型文档研究复现数据包

数据集概述

本数据集是论文《Datasets, Bias, Licenses, and Terms of Use: A Large and Longitudinal Study on the Documentation of Hugging Face Machine Learning Models》的复现数据包,包含两个快照(2023年4月、2024年9月)的模型文档数据,涉及数据集、偏差、许可证、使用条款等维度,支撑四项研究问题(RQ1-RQ4)的分析验证。

文件详解

  • 根目录数据集文件:
  • Dataset_HF_model_list.csv:CSV格式,包含分析的HF模型列表,字段包括id、下载量、点赞数、标签、管道标签、许可证等
  • Dataset_GitHub_prj_list_Transformers.txt:TXT格式,使用transformers库的GitHub项目列表
  • Dataset_GitHub_prj_list_Diffusers.txt:TXT格式,使用diffusers库的GitHub项目列表
  • Dataset_GitHub_prj_frompretrained_Transformers.txt:TXT格式,使用transformers库"from_pretrained"方法的GitHub项目列表
  • Dataset_GitHub_prj_frompretrained_Diffusers.txt:TXT格式,使用diffusers库"from_pretrained"方法的GitHub项目列表
  • Dataset_GitHub_prj_model_used_Transformers.csv:CSV格式,transformers库项目与模型的使用配对数据
  • Dataset_GitHub_prj_model_used_Diffusers.csv:CSV格式,diffusers库项目与模型的使用配对数据
  • Dataset_IntersectedModels.csv:CSV格式,两个快照间共享的模型类别数据
  • modelsReadme:目录,包含样本模型的模型卡片
  • projects_with_5_or_more_stars.csv:CSV格式,星数大于5的项目列表
  • projects_stars_summary.csv:CSV格式,不同星数的项目总数统计
  • RQ1相关文件:
  • RQ1_dataset_list_HF.txt:TXT格式,HF数据集列表
  • RQ1_datasetTags.txt:TXT格式,声明数据集标签的模型列表
  • RQ1_modelDataset.csv:CSV格式,声明数据集标签的模型及其对应数据集
  • RQ1_datasetSample.csv:CSV格式,用于数据集人工分析的模型样本集
  • RQ2相关文件:
  • RQ2_bias_classification_sheet.csv:CSV格式,偏差人工标注结果
  • RQ3相关文件:
  • RQ3_License_Models.csv:CSV格式,按许可宽松度分类的模型许可证列表及出现次数
  • RQ3_License_prjTransformers.csv:CSV格式,按许可宽松度分类的transformers项目许可证列表及出现次数
  • RQ3_License_prjDiffusers.csv:CSV格式,按许可宽松度分类的diffusers项目许可证列表及出现次数
  • RQ3_prj_model_license_permissivity_Transformers_Diffusers.csv:CSV格式,复用模型的项目列表,包含许可证及宽松度信息
  • RQ3_prj_model_license_permissivity_Transformers_Diffusers_Starmajor5.csv:CSV格式,星数大于5且复用模型的项目列表,包含许可证及宽松度信息
  • RQ3_Contingency_Matrix_permissivity_Transformers_Diffusers.csv:CSV格式,项目与模型许可证宽松度的列联表
  • RQ3_Contingency_Matrix_licenses_Transformers_Diffusers.csv:CSV格式,项目与模型许可证类型的列联表
  • RQ3_Contingency_Matrix_permissivity_Transformers_Diffusers_Starmajor5.csv:CSV格式,星数大于5的项目与模型许可证宽松度的列联表
  • RQ4相关文件:
  • RQ4_Terms_of_Use_Snapshot1.csv:CSV格式,第一个快照的使用条款人工标注结果
  • RQ4_Terms_of_Use_Snapshot2.csv:CSV格式,第二个快照的使用条款人工标注结果

适用场景

  • 机器学习模型文档规范研究:分析HF模型在数据集、偏差、许可证维度的文档现状
  • 开源许可证兼容性分析:探究模型与复用项目间的许可证宽松度匹配关系
  • 模型文档纵向对比:基于两个时间快照数据,研究HF模型文档质量的变化趋势
  • 开源社区生态研究:分析transformers、diffusers库的GitHub项目使用行为与模型复用模式
  • 模型偏差标注方法验证:基于人工标注数据,优化偏差自动检测算法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 43.75 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。