来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测
GPT Java GCJ 源代码数据集
该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。
随着 OpenAI ChatGPT 的发布,GPT 编写的代码在日常使用中变得越来越普遍。然而,学生们经常使用生成的代码来作弊考试和做作业。能够检测 GPT 编写的代码可能对组织和学校有用,可以作为分类或异常检测任务。我之前为此创建了第一个数据集,使用 GPT 重写任务,旨在解决不同提示导致的不同作者风格。这是使用 2020 年 Google Code Jam 数据集的上一个版本的显着升级版本。
总体思路如下:
2020 年 Google Code Jam 竞赛共检索到1,000 多名参赛者编写的 58,524 个 Java 源代码文件
其中 17,565 个文件被 GPT-4o 重写,提示为:“这是 Java 代码。在保持功能性的同时,将其完全重写。”
原始文件和重写文件都存在于最终数据集中,以增加难度
*重写任务通过传递各种上下文来模拟不同的 GPT-4o 编码风格,这些上下文模拟了模型根据提示产生不同输出的能力
该数据集旨在为专注于人工智能生成代码检测的研究人员提供资源,提供衡量现实世界能力的实用方法。
(返回顶部)
入门
📌数据集结构
共 76,089 个文件
2020 年 Google Code Jam 参赛作品中的 58,524 个原创文件
使用 GPT-4o 重写了 17,565 个文件
用法
研究人员可以使用该数据集来:
评估模型在各种提示下检测 GPT-4o 的性能和准确性
以此为基础构建新的数据集