数据集

DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集

数据来源：互联网公开数据

标签：自然语言处理,文本生成,机器学习,LLM,训练数据,论文写作,评估,模型训练

数据概述：本数据集是DAIGT（Detect AI Generated Text）训练数据集的v4版本，包含了多种来源的文本数据，旨在用于训练检测AI生成文本的模型。该数据集是对v3版本的增强，增加了更多由LLM（大型语言模型）生成的文本数据，并结合了真实人类撰写的文本。具体来源包括： * MOTH使用ChatGPT生成的文本 * Nicholas Broad提供的Persuade语料库 * Nicholas Broad使用Llama-70b和Falcon180b生成的文本 * Radek使用ChatGPT和GPT4生成的文本 * @darraghdog提供的2000篇Claude生成的文章 * @kingki19使用Google Gen-AI的PaLM生成的文章 * 官方训练数据集中的文章 * 数据集创建者使用各种LLM生成的文章总计超过8000篇使用基于Llama模型的模型微调自Persuade语料库生成的文本。

数据用途概述：该数据集主要用于训练和评估检测AI生成文本的模型。研究人员、开发者和学生可以使用此数据集进行以下活动： * 训练文本检测模型，以区分人类撰写的文本和LLM生成的文本。 * 评估不同文本检测模型的性能。 * 研究LLM生成文本的特征。 * 开发更有效的文本检测技术。 * 改进自然语言处理模型，使其更好地处理LLM生成的文本。

数据与资源

DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集.zipZIP
47.41 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	47.41 MiB
最后更新	2025年4月25日
创建于	2025年4月25日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集

数据与资源

附加信息

注册成功！