找到75个数据集

标签: 文本

过滤结果
  • Catch-the-AI人工智能生成内容检测数据集

    2025年4月15日   

    Catch-the-AI人工智能生成内容检测数据集 数据来源:互联网公开数据 (Kaggle 竞赛及其他数据集) 标签:人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face 数据概述: 本数据集是 Catch the AI...
    packageimg
  • 梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集

    2025年4月15日   

    梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集 数据来源:互联网公开数据 标签:梵语, 史诗, 翻译, 语言学, 文本, 诗歌, 语料库, 机器学习, 文本生成 数据概述: 本数据集是一个梵语-英语翻译语料库,包含了从M. N....
    packageimg
  • 古兰经经文文本数据集阿拉伯语

    2025年4月15日   

    古兰经经文文本数据集阿拉伯语 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教,经文,阿拉伯语,文本,Unicode 数据概述: 本数据集包含古兰经的阿拉伯语文本,以Unicode编码存储。数据结构简洁,主要包含三个字段:Surah ID(章编号)、Verse ID(节编号)和Ayat...
    packageimg
  • 永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分

    2025年4月15日   

    永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分 数据来源:互联网公开数据 标签:永恒之塔,游戏,论坛,讨论,文本,社区,社交,情感分析,主题建模 数据概述: 本数据集包含了2023年6月9日至7月15日(部分)期间,"永恒之塔经典版"游戏General...
    packageimg
  • 音乐流派分类预测数据集

    2025年4月15日   

    音乐流派分类预测数据集 数据来源:互联网公开数据 标签:音乐,流派,分类,机器学习,音频,文本,歌曲,预测 数据概述: 本数据集旨在为音乐流派分类任务提供数据支持。数据集包含了大量歌曲的音频特征和相应的流派标签。数据主要来自Kaggle,是一个用于训练和评估音乐流派分类模型的常用数据集。数据集的更新版本已在Kaggle上发布,提供了更准确和全面的数据。...
    packageimg
  • 美国Reddit政治讨论文本数据集-2024

    2025年4月15日   

    美国Reddit政治讨论文本数据集-2024 数据来源:互联网公开数据 标签:Reddit,政治,评论,文本,情感分析,美国,社交媒体,舆情,话题,数据挖掘 数据概述: 本数据集包含来自Reddit平台上r/Politics子版块的帖子和评论文本数据,涵盖了关于美国政治的讨论。数据通过Reddit...
    packageimg
  • 编程语言HelloWorld程序代码数据集

    2025年4月15日   

    编程语言HelloWorld程序代码数据集 数据来源:互联网公开数据 标签:编程,代码,Hello World,语言,程序,文本,入门,学习,示例 数据概述: 本数据集包含了多种编程语言的"Hello...
    packageimg
  • 皮埃罗格数据集-英语短文本主题相关性评估数据集

    2025年4月14日   

    皮埃罗格数据集-英语短文本主题相关性评估数据集 数据来源:互联网公开数据 标签:文本,主题,相关性,评测,机器学习,教育,英语,自然语言处理,ChatGPT,GPT-4 数据概述: 皮埃罗格数据集是一个小型、开放许可的、机器生成的数据集,包含十五篇短篇英语文本,涵盖五个主题,并附带相关性判断(qrels),专为教育目的设计。...
    packageimg
  • 情景喜剧神烦警探剧本对话数据集-第一季前四集

    2025年4月14日   

    情景喜剧神烦警探剧本对话数据集-第一季前四集 数据来源:互联网公开数据 标签:神烦警探,brooklyn99,剧本,对话,喜剧,角色,文本,Discord机器人,机器学习,自然语言处理 数据概述: 本数据集包含了情景喜剧《神烦警探》(Brooklyn Nine-Nine)第一季前四集的剧本对话内容。数据源自Brooklyn 99...
    packageimg
  • 孟加拉语文本噪声标注数据集-情感分析应用-2024

    2025年4月14日   

    孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'...
    packageimg
  • Kurzgesagt无聊的开端YouTube视频字幕文本数据集

    2025年4月14日   

    Kurzgesagt无聊的开端YouTube视频字幕文本数据集 数据来源:互联网公开数据 标签:Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理 数据概述: 本数据集包含Kurzgesagt - In a...
    packageimg
  • Vox今日解读播客节目文本数据集

    2025年4月14日   

    Vox今日解读播客节目文本数据集 数据来源:互联网公开数据 标签:播客,文本,新闻,时事,舆情分析,对话,VOX,Today Explained,转录 数据概述: 本数据集包含了Vox公司旗下播客节目“Today...
    packageimg
  • CommonLit阅读理解文章数据集

    2025年4月14日   

    CommonLit阅读理解文章数据集 数据来源:互联网公开数据 标签:阅读理解,文章,文本,教育,文学,CommonLit,标准对齐,学习资源 数据概述: 本数据集包含了CommonLit图书馆中抓取的、符合标准的免费文章和段落。这些文章来自知名作家,涵盖广泛的主题和文体,旨在为教育提供高质量的阅读材料。 数据用途概述:...
    packageimg
  • 不同的情感文本数据集 2025

    2025年2月18日   

    该数据集包含代表各种情绪状态的列,具体来说: 愤怒 无聊 平静 蔑视 厌恶 兴奋 恐惧 沮丧 快乐 中性 自豪 悲伤 惊讶 每一行可能代表记录这些情绪的实例或观察结果,可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态,从负面情绪(例如,愤怒、厌恶、悲伤)到正面情绪(例如,快乐、兴奋、自豪),以及中性或平衡状态(例如,平静、中性)。
    packageimg
  • SFT多轮中文对话文本数据集

    2024年11月10日   

    SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献,每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 数据组成...
    packageimg