数据集

Catch-the-AI人工智能生成内容检测数据集

Catch-the-AI人工智能生成内容检测数据集数据来源：互联网公开数据 (Kaggle 竞赛及其他数据集) 标签：人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face 数据概述：本数据集是 Catch the AI 团队的毕业项目成果，旨在检测人工智能 (AI) 生成的内容 (包括图像、音频和文本)。该项目专注于构建 AI 生成内容检测系统。项目目标：检测由人工智能生成的内容，包括图像、音频和文本。团队组成：由 9 名成员组成。 Git Hub：私有仓库，暂不公开。 Web 链接：敬请期待。数据集构成：数据集主要由三个文件组成： DAIGT Kaggle: 包含不同 LLM (大型语言模型) 生成的文本，例如： Mistral-7B (v1 & v2) Llama 70b Falcon 180b GPT (3.5 & 4) Claude 数据来源：来源于 Kaggle 竞赛以及其他数据集，具体包括： LLM Generated Essays for the Detect AI Comp! persuade corpus 2.0 DAIGT | External Dataset daigt data - llama 70b and falcon180b 13 Batch: 与 DAIGT Kaggle 数据集相同，但已分割成批次，以方便在大型模型上进行训练。 DAIGT HuggingFace and Kaggle: 数据源自 Hugging Face，经过处理后增加数据量。其他媒体资源：图像： Mohannad Ayman Salah 音频： Abdalla Mohamed, Mohammed Abdeldayem 数据用途概述：该数据集主要用于以下场景：人工智能生成内容检测：用于训练和评估 AI 生成文本、图像和音频的检测模型。机器学习：进行机器学习模型的训练和实验，例如，分类、检测等。自然语言处理 (NLP)：用于研究文本生成、文本分析、幻觉检测等 NLP 技术。计算机视觉：用于图像生成和图像检测。多模态学习：如果数据集中包含了不同模态的数据 (文本、图像、音频) ，可以用于多模态学习。学术研究：用于学术研究，例如，论文发表、学术报告等。竞赛：用于参与 AI 相关竞赛，例如，文本生成检测、图像生成检测等。

数据与资源

Catch-the-AI人工智能生成内容检测数据集.zipZIP
20.35 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	20.35 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Catch-the-AI人工智能生成内容检测数据集

数据与资源

附加信息

注册成功！