GPT GCJ 数据集:检测 LLM 编写的 Java 代码

来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI ChatGPT 的发布,GPT 编写的代码在日常使用中变得越来越普遍。然而,学生们经常使用生成的代码来作弊考试和做作业。能够检测 GPT 编写的代码可能对组织和学校有用,可以作为分类或异常检测任务。我之前为此创建了第一个数据集,使用 GPT 重写任务,旨在解决不同提示导致的不同作者风格。这是使用 2020 年 Google Code Jam 数据集的上一个版本的显着升级版本。 总体思路如下: 2020 年 Google Code Jam 竞赛共检索到1,000 多名参赛者编写的 58,524 个 Java 源代码文件 其中 17,565 个文件被 GPT-4o 重写,提示为:“这是 Java 代码。在保持功能性的同时,将其完全重写。” 原始文件和重写文件都存在于最终数据集中,以增加难度 *重写任务通过传递各种上下文来模拟不同的 GPT-4o 编码风格,这些上下文模拟了模型根据提示产生不同输出的能力 该数据集旨在为专注于人工智能生成代码检测的研究人员提供资源,提供衡量现实世界能力的实用方法。 (返回顶部) 入门 📌数据集结构 共 76,089 个文件 2020 年 Google Code Jam 参赛作品中的 58,524 个原创文件 使用 GPT-4o 重写了 17,565 个文件 用法 研究人员可以使用该数据集来: 评估模型在各种提示下检测 GPT-4o 的性能和准确性 以此为基础构建新的数据集

packageimg

数据与资源

附加信息

字段
数据集大小 71.28 MiB
最后更新 2025年2月13日
创建于 2025年2月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。