数据集概述
本数据集为MSR 2019挖掘挑战赛的配套资源,包含从Google BigQuery获取的JavaScript代码片段原始数据、代码提取与ESLint检测脚本,以及规则违规统计结果。数据覆盖代码块内容、长度等基础信息,通过ESLint分析生成规则违规分类统计与单条报告,支持JavaScript代码质量相关研究。
文件详解
- 原始数据集文件
- 文件名称:jsanswers.csv
- 文件格式:CSV
- 字段映射介绍:包含PostId(问题ID)、Content(代码块内容)、Length(代码块长度)、LineCount(代码块行数)、score(帖子得分)、title(帖子标题)字段
- 规则与分类文件
- 文件名称:Rules with Categories.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含ESLint检测使用的所有规则及其所属分类信息
- 违规统计文件
- 文件名称:numberOfViolationPerRule.csv
- 文件格式:CSV
- 字段映射介绍:记录各ESLint规则的违规次数统计
- 分类违规统计文件
- 文件名称:numberOfViolationsPerCategory.csv
- 文件格式:CSV
- 字段映射介绍:按ESLint规则分类统计的违规次数
- 单条报告文件
- 文件名称:IndividualReportPerPost.csv
- 文件格式:CSV
- 字段映射介绍:包含PostId(问题ID)及各规则(如indent、no-unused-expressions等)的违规情况
- 错误ID文件
- 文件名称:possibleErrorsID.csv
- 文件格式:CSV
- 字段映射介绍:记录可能存在的错误ID信息
数据来源
MSR 2019 mining challenge官方仓库
适用场景
- JavaScript代码质量分析: 利用ESLint违规统计结果,研究代码规则遵循情况与质量的关联
- 代码缺陷模式挖掘: 通过IndividualReportPerPost.csv分析高频违规规则,识别常见代码缺陷模式
- 编程教育研究: 基于代码片段原始数据与违规记录,分析开发者常见编码问题
- 静态代码分析工具优化: 以规则违规统计为基础,优化ESLint等工具的规则配置或检测效率