数据集概述
本数据集是论文《How Do Machine Learning Models Change?》的复现包,包含在Hugging Face平台收集的超过十万个模型、六十八万次提交及两千二百五十一次版本发布数据,通过分类提交类型、分析提交序列和版本发布特征,探究机器学习模型的演化规律。
文件详解
code/目录:包含所有Jupyter笔记本,按功能分为数据收集、预处理和分析模块
Collection/子目录:HFExtraction.ipynb(收集模型和提交信息)、HFReleasesExtraction.ipynb(收集版本发布信息)
Preprocessing/子目录:HFCommitsPreprocessing.ipynb(处理提交数据)、HFReleasesPreprocessing.ipynb(处理版本发布数据)、SwansonsClassification.ipynb(提交类型分类)
Analysis/子目录:HFFileChanges.ipynb(文件变更分析)、RQ1_Analysis.ipynb(研究问题一分析)、RQ2_Analysis.ipynb(研究问题二分析)、RQ3_Analysis.ipynb(研究问题三分析)
datasets/目录:包含最终处理的数据集
commits_datasets/HFCommitsClassification_final.csv:分类后的提交数据(支持研究问题一、二)
releases_datasets/HFReleasesClassification.csv:分类后的版本发布数据(支持研究问题三)
releases_datasets/model_metadata.csv:模型元数据(支持研究问题三)
metadata/目录:包含验证数据和配置文件
validation_data/子目录:训练集和测试集的标注数据(如training_set_ground_truth.json)
Agreement TOSEM Commit Changes.xlsx:分类和验证过程详情
prompt_refinement.txt:用于LLM分类的最终提示词
README.md:复现包使用说明
requirements.txt:Python依赖包列表
数据来源
Hugging Face平台
适用场景
- 机器学习模型演化研究:分析模型提交类型分布、提交序列模式及版本发布特征
- 软件工程实践分析:探究机器学习模型开发中的变更规律与维护策略
- 自然语言处理应用:验证LLM在代码变更分类任务中的效果
- 数据科学复现研究:复现论文结果或扩展相关分析