DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集

DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集

数据来源:互联网公开数据

标签:自然语言处理,文本生成,机器学习,LLM,训练数据,论文写作,评估,模型训练

数据概述: 本数据集是DAIGT(Detect AI Generated Text)训练数据集的v4版本,包含了多种来源的文本数据,旨在用于训练检测AI生成文本的模型。该数据集是对v3版本的增强,增加了更多由LLM(大型语言模型)生成的文本数据,并结合了真实人类撰写的文本。具体来源包括: * MOTH使用ChatGPT生成的文本 * Nicholas Broad提供的Persuade语料库 * Nicholas Broad使用Llama-70b和Falcon180b生成的文本 * Radek使用ChatGPT和GPT4生成的文本 * @darraghdog提供的2000篇Claude生成的文章 * @kingki19使用Google Gen-AI的PaLM生成的文章 * 官方训练数据集中的文章 * 数据集创建者使用各种LLM生成的文章 总计超过8000篇使用基于Llama模型的模型微调自Persuade语料库生成的文本。

数据用途概述: 该数据集主要用于训练和评估检测AI生成文本的模型。研究人员、开发者和学生可以使用此数据集进行以下活动: * 训练文本检测模型,以区分人类撰写的文本和LLM生成的文本。 * 评估不同文本检测模型的性能。 * 研究LLM生成文本的特征。 * 开发更有效的文本检测技术。 * 改进自然语言处理模型,使其更好地处理LLM生成的文本。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 47.41 MiB
最后更新 2025年4月25日
创建于 2025年4月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。