MSR_2019_Based_JavaScript代码片段规则违规挖掘数据集

数据集概述

本数据集为MSR 2019挖掘挑战赛的配套资源,包含从Google BigQuery获取的JavaScript代码片段原始数据、代码提取与ESLint检测脚本,以及规则违规统计结果。数据覆盖代码块内容、长度等基础信息,通过ESLint分析生成规则违规分类统计与单条报告,支持JavaScript代码质量相关研究。

文件详解

  • 原始数据集文件
  • 文件名称:jsanswers.csv
  • 文件格式:CSV
  • 字段映射介绍:包含PostId(问题ID)、Content(代码块内容)、Length(代码块长度)、LineCount(代码块行数)、score(帖子得分)、title(帖子标题)字段
  • 规则与分类文件
  • 文件名称:Rules with Categories.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含ESLint检测使用的所有规则及其所属分类信息
  • 违规统计文件
  • 文件名称:numberOfViolationPerRule.csv
  • 文件格式:CSV
  • 字段映射介绍:记录各ESLint规则的违规次数统计
  • 分类违规统计文件
  • 文件名称:numberOfViolationsPerCategory.csv
  • 文件格式:CSV
  • 字段映射介绍:按ESLint规则分类统计的违规次数
  • 单条报告文件
  • 文件名称:IndividualReportPerPost.csv
  • 文件格式:CSV
  • 字段映射介绍:包含PostId(问题ID)及各规则(如indent、no-unused-expressions等)的违规情况
  • 错误ID文件
  • 文件名称:possibleErrorsID.csv
  • 文件格式:CSV
  • 字段映射介绍:记录可能存在的错误ID信息

数据来源

MSR 2019 mining challenge官方仓库

适用场景

  • JavaScript代码质量分析: 利用ESLint违规统计结果,研究代码规则遵循情况与质量的关联
  • 代码缺陷模式挖掘: 通过IndividualReportPerPost.csv分析高频违规规则,识别常见代码缺陷模式
  • 编程教育研究: 基于代码片段原始数据与违规记录,分析开发者常见编码问题
  • 静态代码分析工具优化: 以规则违规统计为基础,优化ESLint等工具的规则配置或检测效率
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 481.35 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。