MSR_2026代码挖掘挑战赛提案数据集

数据集概述

该数据集为MSR-2026代码挖掘挑战赛提案提供支持,包含从GitHub挖掘的五万九千二百七十八个Ecore文件及八万六千八百二十七个提交版本,覆盖三千五百三十七个仓库。数据以压缩包和数据库形式组织,含元模型文件、数据库恢复脚本及分析工具。

文件详解

  • 数据库恢复文件:
  • restore.sql:SQL脚本文件,用于恢复数据库,需修改文件路径配置
  • 3382.dat:数据文件,存储metamodels表数据
  • 3381.dat:数据文件,存储versions表数据
  • toc.dat:数据库恢复相关数据文件
  • 元模型文件:
  • metamodels.zip:压缩文件,包含从GitHub挖掘的元模型及版本文件,按仓库层级存储,文件名后缀数字表示版本号
  • 分析工具:
  • EMFAnalyzer.zip:压缩文件,含元模型初步分析工具
  • 数据结构说明:
  • datastructure.txt:文本文件,记录metamodels和versions表的字段结构
  • Docker容器文件:
  • metamodels.tar:Docker镜像文件,用于快速搭建数据库环境

适用场景

  • 代码挖掘研究:分析元模型版本演化规律及提交行为特征
  • 软件工程分析:探究GitHub仓库中元模型的分布与维护模式
  • 数据库恢复实践:验证PostgreSQL数据库批量数据导入流程
  • 代码分析工具开发:基于EMFAnalyzer扩展元模型分析功能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 108.69 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。