数据集

GPT检测器数据集

GPT检测器数据集数据来源：互联网公开数据标签：GPT检测器,非母语英语,文本分类,机器学习,预测分析,数据包,R语言数据概述：本数据集收录了多种GPT检测器对一系列论文的预测结果，数据基于论文《GPT检测器对非母语英语写作者存在偏见》。研究作者通过将多篇论文传递给不同的GPT检测模型进行实验，比较人类和非母语英语写作者论文的检测器预测，结果表明GPT检测器倾向于将非母语英语写作者的真实写作错误分类为AI生成的内容。数据用途概述：此数据集适用于研究GPT检测器的偏见、评估检测器性能以及分析非母语英语写作的影响。研究人员可以利用此数据集进行文本分类模型的验证和改进，投资机构和教育机构可以使用数据来识别和理解GPT检测器的局限性，从而更好地评估和应对AI写作的挑战。数据字典： detectors.csv

变量类型描述

kind 字符串论文是由"人类"还是"AI"撰写的。 .pred_AI 双精度浮点数 GPT检测器预测输入文本为AI撰写的概率。 .pred_class 字符串未经校准的类别预测，根据.pred_AI > 0.5编码为"AI"或"人类"。 detector 字符串生成预测的检测器名称。 native 字符串对于人类撰写的论文，作者是否为母语英语写作者。这些分类较为粗糙；标记为"是"的论文可能实际上未以英语作为母语撰写。NA表示文本未由人类撰写。 name 字符串预测生成的实验标签。 model 字符串对于AI撰写的论文，生成论文的模型名称。 document_id 双精度浮点数提供的论文的唯一标识符。某些论文被传递给多个检测器。请注意，某些论文是其他论文的AI修订版本。 prompt 字符串对于AI撰写的论文，传递给模型的"提示工程"描述。

数据与资源

GPT检测器数据集.zipZIP
0.06 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.06 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

GPT检测器数据集

数据与资源

附加信息

注册成功！