GPT检测器数据集

GPT检测器数据集 数据来源:互联网公开数据 标签:GPT检测器,非母语英语,文本分类,机器学习,预测分析,数据包,R语言 数据概述: 本数据集收录了多种GPT检测器对一系列论文的预测结果,数据基于论文《GPT检测器对非母语英语写作者存在偏见》。研究作者通过将多篇论文传递给不同的GPT检测模型进行实验,比较人类和非母语英语写作者论文的检测器预测,结果表明GPT检测器倾向于将非母语英语写作者的真实写作错误分类为AI生成的内容。 数据用途概述: 此数据集适用于研究GPT检测器的偏见、评估检测器性能以及分析非母语英语写作的影响。研究人员可以利用此数据集进行文本分类模型的验证和改进,投资机构和教育机构可以使用数据来识别和理解GPT检测器的局限性,从而更好地评估和应对AI写作的挑战。 数据字典: detectors.csv

变量 类型 描述

kind 字符串 论文是由"人类"还是"AI"撰写的。 .pred_AI 双精度浮点数 GPT检测器预测输入文本为AI撰写的概率。 .pred_class 字符串 未经校准的类别预测,根据.pred_AI > 0.5编码为"AI"或"人类"。 detector 字符串 生成预测的检测器名称。 native 字符串 对于人类撰写的论文,作者是否为母语英语写作者。这些分类较为粗糙;标记为"是"的论文可能实际上未以英语作为母语撰写。NA表示文本未由人类撰写。 name 字符串 预测生成的实验标签。 model 字符串 对于AI撰写的论文,生成论文的模型名称。 document_id 双精度浮点数 提供的论文的唯一标识符。某些论文被传递给多个检测器。请注意,某些论文是其他论文的AI修订版本。 prompt 字符串 对于AI撰写的论文,传递给模型的"提示工程"描述。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 12:49 (UTC)
创建于 四月 15, 2025, 12:49 (UTC)