机器学习模型变更研究复现包2025

数据集概述

本数据集是论文《How Do Machine Learning Models Change?》的复现包,包含在Hugging Face平台收集的超过十万个模型、六十八万次提交及两千二百五十一次版本发布数据,通过分类提交类型、分析提交序列和版本发布特征,探究机器学习模型的演化规律。

文件详解

  • code/目录:包含所有Jupyter笔记本,按功能分为数据收集、预处理和分析模块
  • Collection/子目录:HFExtraction.ipynb(收集模型和提交信息)、HFReleasesExtraction.ipynb(收集版本发布信息)
  • Preprocessing/子目录:HFCommitsPreprocessing.ipynb(处理提交数据)、HFReleasesPreprocessing.ipynb(处理版本发布数据)、SwansonsClassification.ipynb(提交类型分类)
  • Analysis/子目录:HFFileChanges.ipynb(文件变更分析)、RQ1_Analysis.ipynb(研究问题一分析)、RQ2_Analysis.ipynb(研究问题二分析)、RQ3_Analysis.ipynb(研究问题三分析)
  • datasets/目录:包含最终处理的数据集
  • commits_datasets/HFCommitsClassification_final.csv:分类后的提交数据(支持研究问题一、二)
  • releases_datasets/HFReleasesClassification.csv:分类后的版本发布数据(支持研究问题三)
  • releases_datasets/model_metadata.csv:模型元数据(支持研究问题三)
  • metadata/目录:包含验证数据和配置文件
  • validation_data/子目录:训练集和测试集的标注数据(如training_set_ground_truth.json
  • Agreement TOSEM Commit Changes.xlsx:分类和验证过程详情
  • prompt_refinement.txt:用于LLM分类的最终提示词
  • README.md:复现包使用说明
  • requirements.txt:Python依赖包列表

数据来源

Hugging Face平台

适用场景

  • 机器学习模型演化研究:分析模型提交类型分布、提交序列模式及版本发布特征
  • 软件工程实践分析:探究机器学习模型开发中的变更规律与维护策略
  • 自然语言处理应用:验证LLM在代码变更分类任务中的效果
  • 数据科学复现研究:复现论文结果或扩展相关分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 578.77 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。