数据集概述
本数据集是Java程序中混淆原子的双重校验黄金标准数据集,从四个开源项目(FastUtil、Moshi、Jimfs、uCrop)的主源代码包中提取(排除测试文件),同时包含从Guava和Redisson两个开源项目中提取的样本数据,为Java代码混淆模式研究提供结构化参考。
文件详解
- 主文件
- 文件名称:Dataset.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含从FastUtil(8.5.6)、Moshi(1.12.0)、Jimfs(1.2)、uCrop(2.2.7)四个项目主源代码中提取的混淆原子数据,以及从Guava(31.0.1)、Redisson(3.6.16)提取的样本数据,未区分训练/测试、数据/标签或原始/处理数据,目录深度为0。
数据来源
开源项目FastUtil、Moshi、Jimfs、uCrop、Guava、Redisson的源代码
适用场景
- Java代码混淆模式研究:分析Java程序中混淆原子的类型、分布及出现规律
- 代码质量工具开发:为检测Java代码混淆问题的静态分析工具提供训练或验证数据
- 开源项目代码质量评估:评估FastUtil、Moshi等开源项目主代码中的混淆原子情况
- 编程教育研究:研究混淆原子对代码可读性的影响,优化编程教学内容