Catch-the-AI人工智能生成内容检测数据集
数据来源:互联网公开数据 (Kaggle 竞赛及其他数据集)
标签:人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face
数据概述:
本数据集是 Catch the AI 团队的毕业项目成果,旨在检测人工智能 (AI) 生成的内容 (包括图像、音频和文本)。 该项目专注于构建 AI 生成内容检测系统。
项目目标: 检测由人工智能生成的内容, 包括图像、 音频和文本。
团队组成: 由 9 名成员组成。
Git Hub: 私有仓库, 暂不公开。
Web 链接: 敬请期待。
数据集构成:
数据集主要由三个文件组成:
DAIGT Kaggle:
包含不同 LLM (大型语言模型) 生成的文本,例如:
Mistral-7B (v1 & v2)
Llama 70b
Falcon 180b
GPT (3.5 & 4)
Claude
数据来源: 来源于 Kaggle 竞赛以及其他数据集, 具体包括:
LLM Generated Essays for the Detect AI Comp!
persuade corpus 2.0
DAIGT | External Dataset
daigt data - llama 70b and falcon180b
13 Batch:
与 DAIGT Kaggle 数据集相同, 但已分割成批次, 以方便在大型模型上进行训练。
DAIGT HuggingFace and Kaggle:
数据源自 Hugging Face, 经过处理后增加数据量。
其他媒体资源:
图像: Mohannad Ayman Salah
音频: Abdalla Mohamed, Mohammed Abdeldayem
数据用途概述:
该数据集主要用于以下场景:
人工智能生成内容检测: 用于训练和评估 AI 生成文本、 图像和音频的检测模型。
机器学习: 进行机器学习模型的训练和实验,例如, 分类、 检测等。
自然语言处理 (NLP): 用于研究文本生成、 文本分析、 幻觉检测等 NLP 技术。
计算机视觉: 用于图像生成和图像检测。
多模态学习: 如果数据集中包含了不同模态的数据 (文本、 图像、 音频) ,可以用于多模态学习。
学术研究: 用于学术研究,例如, 论文发表、 学术报告等。
竞赛: 用于参与 AI 相关竞赛,例如, 文本生成检测、 图像生成检测等。