GPT检测器数据集
数据来源:互联网公开数据
标签:GPT检测器,非母语英语,文本分类,机器学习,预测分析,数据包,R语言
数据概述:
本数据集收录了多种GPT检测器对一系列论文的预测结果,数据基于论文《GPT检测器对非母语英语写作者存在偏见》。研究作者通过将多篇论文传递给不同的GPT检测模型进行实验,比较人类和非母语英语写作者论文的检测器预测,结果表明GPT检测器倾向于将非母语英语写作者的真实写作错误分类为AI生成的内容。
数据用途概述:
此数据集适用于研究GPT检测器的偏见、评估检测器性能以及分析非母语英语写作的影响。研究人员可以利用此数据集进行文本分类模型的验证和改进,投资机构和教育机构可以使用数据来识别和理解GPT检测器的局限性,从而更好地评估和应对AI写作的挑战。
数据字典:
detectors.csv
变量 类型 描述
kind 字符串 论文是由"人类"还是"AI"撰写的。
.pred_AI 双精度浮点数 GPT检测器预测输入文本为AI撰写的概率。
.pred_class 字符串 未经校准的类别预测,根据.pred_AI > 0.5编码为"AI"或"人类"。
detector 字符串 生成预测的检测器名称。
native 字符串 对于人类撰写的论文,作者是否为母语英语写作者。这些分类较为粗糙;标记为"是"的论文可能实际上未以英语作为母语撰写。NA表示文本未由人类撰写。
name 字符串 预测生成的实验标签。
model 字符串 对于AI撰写的论文,生成论文的模型名称。
document_id 双精度浮点数 提供的论文的唯一标识符。某些论文被传递给多个检测器。请注意,某些论文是其他论文的AI修订版本。
prompt 字符串 对于AI撰写的论文,传递给模型的"提示工程"描述。