DAIGTv4训练数据集-LLM生成文本与真实文本混合数据集
数据来源:互联网公开数据
标签:自然语言处理,文本生成,机器学习,LLM,训练数据,论文写作,评估,模型训练
数据概述:
本数据集是DAIGT(Detect AI Generated Text)训练数据集的v4版本,包含了多种来源的文本数据,旨在用于训练检测AI生成文本的模型。该数据集是对v3版本的增强,增加了更多由LLM(大型语言模型)生成的文本数据,并结合了真实人类撰写的文本。具体来源包括:
* MOTH使用ChatGPT生成的文本
* Nicholas Broad提供的Persuade语料库
* Nicholas Broad使用Llama-70b和Falcon180b生成的文本
* Radek使用ChatGPT和GPT4生成的文本
* @darraghdog提供的2000篇Claude生成的文章
* @kingki19使用Google Gen-AI的PaLM生成的文章
* 官方训练数据集中的文章
* 数据集创建者使用各种LLM生成的文章
总计超过8000篇使用基于Llama模型的模型微调自Persuade语料库生成的文本。
数据用途概述:
该数据集主要用于训练和评估检测AI生成文本的模型。研究人员、开发者和学生可以使用此数据集进行以下活动:
* 训练文本检测模型,以区分人类撰写的文本和LLM生成的文本。
* 评估不同文本检测模型的性能。
* 研究LLM生成文本的特征。
* 开发更有效的文本检测技术。
* 改进自然语言处理模型,使其更好地处理LLM生成的文本。