数据集 - 海数据

OpenMoji表情符号图像与描述数据集

2025年4月21日

OpenMoji表情符号图像与描述数据集数据来源：互联网公开数据标签：OpenMoji,表情符号,图像,文本,Unicode,描述,视觉,文化,交流数据概述：本数据集基于OpenMoji项目，收录了丰富的表情符号图像及相关描述信息。数据源自Kaggle平台，并遵循知识共享署名-...

ZIP

TED演讲文本主题分析与文本分割数据集-2020年5月1日

2025年4月18日

TED演讲文本主题分析与文本分割数据集-2020年5月1日数据来源：互联网公开数据标签：TED演讲,文本,演讲,文本分割,自然语言处理,机器学习,主题分析,演讲稿,NLP 数据概述：本数据集包含了从TED.com网站抓取的TED演讲稿文本，每个演讲稿被分割成段落。演讲视频列表来源于“TED Talks Transcripts for...

ZIP

泰卢固语新闻文本数据集-语言模型训练-合并数据集

2025年4月17日

泰卢固语新闻文本数据集-语言模型训练-合并数据集数据来源：互联网公开数据标签：泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据数据概述：本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成，整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容，涵盖了各种主题和风格。数据用途概述：...

ZIP

TED演讲文本数据集-演讲内容与结构分析-2024年9月12日

2025年4月16日

TED演讲文本数据集-演讲内容与结构分析-2024年9月12日数据来源：互联网公开数据标签：TED演讲,文本,转录,演讲稿,自然语言处理,文本分析,主题分割,内容分析数据概述：...

ZIP

假名500人数据集

2025年4月15日

假名500人数据集数据来源：互联网公开数据标签：假名数据,随机生成,个人信息,电话,电子邮件,地址,国家,区域,邮政编码,文本,数字范围,货币,字母数字数据概述：...

ZIP

Catch-the-AI人工智能生成内容检测数据集

2025年4月15日

Catch-the-AI人工智能生成内容检测数据集数据来源：互联网公开数据 (Kaggle 竞赛及其他数据集) 标签：人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face 数据概述：本数据集是 Catch the AI...

ZIP

梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集

2025年4月15日

梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集数据来源：互联网公开数据标签：梵语, 史诗, 翻译, 语言学, 文本, 诗歌, 语料库, 机器学习, 文本生成数据概述：本数据集是一个梵语-英语翻译语料库，包含了从M. N....

ZIP

古兰经经文文本数据集阿拉伯语

2025年4月15日

古兰经经文文本数据集阿拉伯语数据来源：互联网公开数据标签：古兰经,伊斯兰教,宗教,经文,阿拉伯语,文本,Unicode 数据概述：本数据集包含古兰经的阿拉伯语文本，以Unicode编码存储。数据结构简洁，主要包含三个字段：Surah ID（章编号）、Verse ID（节编号）和Ayat...

ZIP

永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分

2025年4月15日

永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分数据来源：互联网公开数据标签：永恒之塔,游戏,论坛,讨论,文本,社区,社交,情感分析,主题建模数据概述：本数据集包含了2023年6月9日至7月15日（部分）期间，"永恒之塔经典版"游戏General...

ZIP

音乐流派分类预测数据集

2025年4月15日

音乐流派分类预测数据集数据来源：互联网公开数据标签：音乐，流派，分类，机器学习，音频，文本，歌曲，预测数据概述：本数据集旨在为音乐流派分类任务提供数据支持。数据集包含了大量歌曲的音频特征和相应的流派标签。数据主要来自Kaggle，是一个用于训练和评估音乐流派分类模型的常用数据集。数据集的更新版本已在Kaggle上发布，提供了更准确和全面的数据。...

ZIP

美国Reddit政治讨论文本数据集-2024

2025年4月15日

美国Reddit政治讨论文本数据集-2024 数据来源：互联网公开数据标签：Reddit,政治,评论,文本,情感分析,美国,社交媒体,舆情,话题,数据挖掘数据概述：本数据集包含来自Reddit平台上r/Politics子版块的帖子和评论文本数据，涵盖了关于美国政治的讨论。数据通过Reddit...

ZIP

编程语言HelloWorld程序代码数据集

2025年4月15日

编程语言HelloWorld程序代码数据集数据来源：互联网公开数据标签：编程,代码,Hello World,语言,程序,文本,入门,学习,示例数据概述：本数据集包含了多种编程语言的"Hello...

ZIP

皮埃罗格数据集-英语短文本主题相关性评估数据集

2025年4月14日

皮埃罗格数据集-英语短文本主题相关性评估数据集数据来源：互联网公开数据标签：文本,主题,相关性,评测,机器学习,教育,英语,自然语言处理,ChatGPT,GPT-4 数据概述：皮埃罗格数据集是一个小型、开放许可的、机器生成的数据集，包含十五篇短篇英语文本，涵盖五个主题，并附带相关性判断（qrels），专为教育目的设计。...

ZIP

情景喜剧神烦警探剧本对话数据集-第一季前四集

2025年4月14日

情景喜剧神烦警探剧本对话数据集-第一季前四集数据来源：互联网公开数据标签：神烦警探,brooklyn99,剧本,对话,喜剧,角色,文本,Discord机器人,机器学习,自然语言处理数据概述：本数据集包含了情景喜剧《神烦警探》（Brooklyn Nine-Nine）第一季前四集的剧本对话内容。数据源自Brooklyn 99...

ZIP

孟加拉语文本噪声标注数据集-情感分析应用-2024

2025年4月14日

孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源：互联网公开数据标签：孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学数据概述：本数据集为多标签数据集，旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注，标注可信度达到90%。Fleiss'...

ZIP

Kurzgesagt无聊的开端YouTube视频字幕文本数据集

2025年4月14日

Kurzgesagt无聊的开端YouTube视频字幕文本数据集数据来源：互联网公开数据标签：Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理数据概述：本数据集包含Kurzgesagt - In a...

ZIP

Vox今日解读播客节目文本数据集

2025年4月14日

Vox今日解读播客节目文本数据集数据来源：互联网公开数据标签：播客,文本,新闻,时事,舆情分析,对话,VOX,Today Explained,转录数据概述：本数据集包含了Vox公司旗下播客节目“Today...

ZIP

CommonLit阅读理解文章数据集

2025年4月14日

CommonLit阅读理解文章数据集数据来源：互联网公开数据标签：阅读理解,文章,文本,教育,文学,CommonLit,标准对齐,学习资源数据概述：本数据集包含了CommonLit图书馆中抓取的、符合标准的免费文章和段落。这些文章来自知名作家，涵盖广泛的主题和文体，旨在为教育提供高质量的阅读材料。数据用途概述：...

ZIP

不同的情感文本数据集 2025

2025年2月18日

该数据集包含代表各种情绪状态的列，具体来说：愤怒无聊平静蔑视厌恶兴奋恐惧沮丧快乐中性自豪悲伤惊讶每一行可能代表记录这些情绪的实例或观察结果，可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态，从负面情绪（例如，愤怒、厌恶、悲伤）到正面情绪（例如，快乐、兴奋、自豪），以及中性或平衡状态（例如，平静、中性）。