Catch-the-AI人工智能生成内容检测数据集

Catch-the-AI人工智能生成内容检测数据集 数据来源:互联网公开数据 (Kaggle 竞赛及其他数据集) 标签:人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face 数据概述: 本数据集是 Catch the AI 团队的毕业项目成果,旨在检测人工智能 (AI) 生成的内容 (包括图像、音频和文本)。 该项目专注于构建 AI 生成内容检测系统。 项目目标: 检测由人工智能生成的内容, 包括图像、 音频和文本。 团队组成: 由 9 名成员组成。 Git Hub: 私有仓库, 暂不公开。 Web 链接: 敬请期待。 数据集构成: 数据集主要由三个文件组成: DAIGT Kaggle: 包含不同 LLM (大型语言模型) 生成的文本,例如: Mistral-7B (v1 & v2) Llama 70b Falcon 180b GPT (3.5 & 4) Claude 数据来源: 来源于 Kaggle 竞赛以及其他数据集, 具体包括: LLM Generated Essays for the Detect AI Comp! persuade corpus 2.0 DAIGT | External Dataset daigt data - llama 70b and falcon180b 13 Batch: 与 DAIGT Kaggle 数据集相同, 但已分割成批次, 以方便在大型模型上进行训练。 DAIGT HuggingFace and Kaggle: 数据源自 Hugging Face, 经过处理后增加数据量。 其他媒体资源: 图像: Mohannad Ayman Salah 音频: Abdalla Mohamed, Mohammed Abdeldayem 数据用途概述: 该数据集主要用于以下场景: 人工智能生成内容检测: 用于训练和评估 AI 生成文本、 图像和音频的检测模型。 机器学习: 进行机器学习模型的训练和实验,例如, 分类、 检测等。 自然语言处理 (NLP): 用于研究文本生成、 文本分析、 幻觉检测等 NLP 技术。 计算机视觉: 用于图像生成和图像检测。 多模态学习: 如果数据集中包含了不同模态的数据 (文本、 图像、 音频) ,可以用于多模态学习。 学术研究: 用于学术研究,例如, 论文发表、 学术报告等。 竞赛: 用于参与 AI 相关竞赛,例如, 文本生成检测、 图像生成检测等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 20.35 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。