吉米尼生成论文数据集-2023-mouadberqia

吉米尼生成论文数据集-2023-mouadberqia 数据来源:互联网公开数据 标签:吉米尼模型,人工智能,生成文本,论文,写作竞赛,数据集,语言模型,文本检测

数据概述: 本数据集包含了由最新吉米尼Pro模型生成的120篇论文。这些论文是根据“LLM - Detect AI Generated Text”竞赛中的两个提示生成的。由于原始数据集中包含的人类撰写的论文较多,人工智能生成的论文较少(仅为3篇),因此本数据集旨在补充更多由语言模型生成的文本样本。

数据集包含三个字段:“prompt_id”、“text”和“generated”。“prompt_id”字段有两个可能的取值,0或1,代表原始数据集中的提示编号;“text”字段包含吉米尼Pro模型生成的实际论文内容;“generated”字段始终为1,表示该论文由语言模型生成(在原始数据集中,0表示人类撰写,1表示由语言模型生成)。

数据用途概述: 该数据集适用于AI生成文本检测、自然语言处理研究、语言模型评估等多种场景。研究人员可以利用此数据集训练和评估文本生成检测模型;教育机构可以使用这些论文进行写作教学和评估;技术开发者可以将数据集用于开发和测试语言生成工具。通过分析这些生成的文本,可以帮助理解当前AI写作的质量和特征,从而推动相关技术的进步。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.07 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。