数据集概述
本数据集是论文《Datasets, Bias, Licenses, and Terms of Use: A Large and Longitudinal Study on the Documentation of Hugging Face Machine Learning Models》的复现数据包,包含两个快照(2023年4月、2024年9月)的模型文档数据,涉及数据集、偏差、许可证、使用条款等维度,支撑四项研究问题(RQ1-RQ4)的分析验证。
文件详解
- 根目录数据集文件:
- Dataset_HF_model_list.csv:CSV格式,包含分析的HF模型列表,字段包括id、下载量、点赞数、标签、管道标签、许可证等
- Dataset_GitHub_prj_list_Transformers.txt:TXT格式,使用transformers库的GitHub项目列表
- Dataset_GitHub_prj_list_Diffusers.txt:TXT格式,使用diffusers库的GitHub项目列表
- Dataset_GitHub_prj_frompretrained_Transformers.txt:TXT格式,使用transformers库"from_pretrained"方法的GitHub项目列表
- Dataset_GitHub_prj_frompretrained_Diffusers.txt:TXT格式,使用diffusers库"from_pretrained"方法的GitHub项目列表
- Dataset_GitHub_prj_model_used_Transformers.csv:CSV格式,transformers库项目与模型的使用配对数据
- Dataset_GitHub_prj_model_used_Diffusers.csv:CSV格式,diffusers库项目与模型的使用配对数据
- Dataset_IntersectedModels.csv:CSV格式,两个快照间共享的模型类别数据
- modelsReadme:目录,包含样本模型的模型卡片
- projects_with_5_or_more_stars.csv:CSV格式,星数大于5的项目列表
- projects_stars_summary.csv:CSV格式,不同星数的项目总数统计
- RQ1相关文件:
- RQ1_dataset_list_HF.txt:TXT格式,HF数据集列表
- RQ1_datasetTags.txt:TXT格式,声明数据集标签的模型列表
- RQ1_modelDataset.csv:CSV格式,声明数据集标签的模型及其对应数据集
- RQ1_datasetSample.csv:CSV格式,用于数据集人工分析的模型样本集
- RQ2相关文件:
- RQ2_bias_classification_sheet.csv:CSV格式,偏差人工标注结果
- RQ3相关文件:
- RQ3_License_Models.csv:CSV格式,按许可宽松度分类的模型许可证列表及出现次数
- RQ3_License_prjTransformers.csv:CSV格式,按许可宽松度分类的transformers项目许可证列表及出现次数
- RQ3_License_prjDiffusers.csv:CSV格式,按许可宽松度分类的diffusers项目许可证列表及出现次数
- RQ3_prj_model_license_permissivity_Transformers_Diffusers.csv:CSV格式,复用模型的项目列表,包含许可证及宽松度信息
- RQ3_prj_model_license_permissivity_Transformers_Diffusers_Starmajor5.csv:CSV格式,星数大于5且复用模型的项目列表,包含许可证及宽松度信息
- RQ3_Contingency_Matrix_permissivity_Transformers_Diffusers.csv:CSV格式,项目与模型许可证宽松度的列联表
- RQ3_Contingency_Matrix_licenses_Transformers_Diffusers.csv:CSV格式,项目与模型许可证类型的列联表
- RQ3_Contingency_Matrix_permissivity_Transformers_Diffusers_Starmajor5.csv:CSV格式,星数大于5的项目与模型许可证宽松度的列联表
- RQ4相关文件:
- RQ4_Terms_of_Use_Snapshot1.csv:CSV格式,第一个快照的使用条款人工标注结果
- RQ4_Terms_of_Use_Snapshot2.csv:CSV格式,第二个快照的使用条款人工标注结果
适用场景
- 机器学习模型文档规范研究:分析HF模型在数据集、偏差、许可证维度的文档现状
- 开源许可证兼容性分析:探究模型与复用项目间的许可证宽松度匹配关系
- 模型文档纵向对比:基于两个时间快照数据,研究HF模型文档质量的变化趋势
- 开源社区生态研究:分析transformers、diffusers库的GitHub项目使用行为与模型复用模式
- 模型偏差标注方法验证:基于人工标注数据,优化偏差自动检测算法