机器学习模型变更研究复现包2025

本数据集是论文《How Do Machine Learning Models Change?》的复现包，包含在Hugging Face平台收集的超过十万个模型、六十八万次提交及两千二百五十一次版本发布数据，通过分类提交类型、分析提交序列和版本发布特征，探究机器学习模型的演化规律。

code/目录：包含所有Jupyter笔记本，按功能分为数据收集、预处理和分析模块
Collection/子目录：HFExtraction.ipynb（收集模型和提交信息）、HFReleasesExtraction.ipynb（收集版本发布信息）
Preprocessing/子目录：HFCommitsPreprocessing.ipynb（处理提交数据）、HFReleasesPreprocessing.ipynb（处理版本发布数据）、SwansonsClassification.ipynb（提交类型分类）
Analysis/子目录：HFFileChanges.ipynb（文件变更分析）、RQ1_Analysis.ipynb（研究问题一分析）、RQ2_Analysis.ipynb（研究问题二分析）、RQ3_Analysis.ipynb（研究问题三分析）
datasets/目录：包含最终处理的数据集
commits_datasets/HFCommitsClassification_final.csv：分类后的提交数据（支持研究问题一、二）
releases_datasets/HFReleasesClassification.csv：分类后的版本发布数据（支持研究问题三）
releases_datasets/model_metadata.csv：模型元数据（支持研究问题三）
metadata/目录：包含验证数据和配置文件
validation_data/子目录：训练集和测试集的标注数据（如training_set_ground_truth.json）
Agreement TOSEM Commit Changes.xlsx：分类和验证过程详情
prompt_refinement.txt：用于LLM分类的最终提示词
README.md：复现包使用说明
requirements.txt：Python依赖包列表

Hugging Face平台

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	578.77 MiB
最后更新	2025年12月16日
创建于	2025年12月16日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。