数据集 - 海数据

Mpox_Instagram_Based_猴痘社交媒体叙事多语言标注分析数据集2022_2024

2026年1月11日 30 67 54

数据集概述本数据集包含2022年7月23日至2024年9月5日期间的60,127条Instagram猴痘相关帖子，覆盖52种语言。每条帖子标注了Post ID、原始描述、发布日期、语言、英文翻译版，以及情感（细粒度7类）、仇恨言论、焦虑/压力检测结果，可用于社交媒体文本分析与公共卫生研究。文件详解文件名称：Dataset.xlsx...

ZIP

电子烟内容警告标签检测数据集

2025年12月11日 30 2 1

数据集概述该数据集包含用于检测社交媒体平台（TikTok和YouTube）电子烟内容中警告标签的脚本与工作流程文档。核心内容围绕数据收集、视频处理、OCR识别、语言检测及规则分类器构建展开，为电子烟内容合规性分析提供技术实现框架。文件详解文件名称: Detecting-Warning-Labels-on-E-Cigarette-Content-...

ZIP

多语言歌词音乐流派分类数据集-mateibejan

2025年6月1日 30 185 144

多语言歌词音乐流派分类数据集-mateibejan 数据来源：互联网公开数据标签：多语言,歌词,音乐流派,文本挖掘,信息检索,语言检测,音乐分类数据概述：...

ZIP

多语言文本识别数据集MultilingualTextRecognitionDataset-amitverma2030

2025年5月26日 30 50 35

多语言文本识别数据集MultilingualTextRecognitionDataset-amitverma2030 数据来源：互联网公开数据标签：文本识别, 多语言, 语言检测, 文本分类, 自然语言处理, 机器学习, 语料库, 文本分析数据概述：该数据集包含来自多种语言的文本数据，旨在用于多语言文本识别和语言检测任务。主要特征如下：...

ZIP

谷歌AI4Code竞赛Markdown语言检测训练数据集-astrung

2025年5月10日 30 113 39

谷歌AI4Code竞赛Markdown语言检测训练数据集-astrung 数据来源：互联网公开数据标签：AI4Code,Markdown,语言检测,竞赛数据,机器学习,自然语言处理数据概述：...

ZIP

多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar

2025年5月6日 30 108 102

多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar 数据来源：互联网公开数据标签：文本分类, 语言识别, 自然语言处理, 多语言, 机器学习, 数据标注, 文本分析, 语种检测数据概述：该数据集包含来自多种语言的文本样本，用于语言检测任务。主要特征如下：...

ZIP

大规模语言检测数据集

2025年5月5日 30 123 51

大规模语言检测数据集数据来源：互联网公开数据标签：语言检测,ISO 639-3,自然语言处理,多语言支持,文本分析,语言识别,机器学习数据概述：本数据集包含一个约10^7行的.csv文件，每行记录包含一个句子及其对应的ISO 639-3语言代码。此外，数据集还包括一个.json文件，用于映射ISO...

ZIP

恶意语言检测数据集-hiungtrung

2025年4月26日 30 90 33

恶意语言检测数据集-hiungtrung 数据来源：互联网公开数据标签：自然语言处理，文本分析，情感分析，机器学习，恶意内容，语言检测，数据集，NLP 数据概述：该数据集包含用于恶意语言检测的文本数据，旨在帮助开发和评估识别网络恶意内容（如辱骂，仇恨言论，威胁等）的模型。主要特征如下：时间跨度：...

ZIP

自然语言处理语言检测数据集LanguageDetectionNLPDataset-tharun369

2025年4月24日 30 202 86

自然语言处理语言检测数据集LanguageDetectionNLPDataset-tharun369 数据来源：互联网公开数据标签：自然语言处理，语言检测，数据集，文本分析，机器学习，文本分类，语言学，计算机科学数据概述：该数据集包含来自多个来源的文本数据，用于自然语言处理中的语言检测任务。主要特征如下：...

ZIP

语言检测数据集LanguageDetectionDataset-trinhtung

2025年4月24日 30 205 136

语言检测数据集LanguageDetectionDataset-trinhtung 数据来源：互联网公开数据标签：语言检测，自然语言处理，数据集，文本分析，机器学习，人工智能，数据科学，语言学数据概述：该数据集包含来自多个来源的文本数据，用于语言检测任务。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。地理范围：...

ZIP

语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey

2025年4月24日 30 70 28

语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey 数据来源：互联网公开数据标签：语言检测，文本分析，数据集，自然语言处理，机器学习，多语言识别，文本分类，人工智能数据概述：该数据集包含来自不同来源的文本数据，记录了多种语言的文本样本，适用于语言检测和识别任务。主要特征如下：...

ZIP

多语言短信垃圾信息与情感分析检测数据集-2023-debapampal2002

2025年4月22日 30 42 20

多语言短信垃圾信息与情感分析检测数据集-2023-debapampal2002 数据来源：互联网公开数据标签：垃圾短信,多语言,情感分析,文本分析,机器学习,语言检测,数据集数据概述：...

ZIP

欧洲歌唱大赛YouTube评论数据集-比利时歌曲2013

2025年4月15日 30 26 2

欧洲歌唱大赛YouTube评论数据集-比利时歌曲2013 数据来源：互联网公开数据标签：欧洲歌唱大赛,YouTube评论,语言学研究,多语言,用户评论,语言态度,文化分析数据概述：...

ZIP

人工智能语言检测软件训练数据集

2025年4月15日 30 168 164

人工智能语言检测软件训练数据集数据来源：互联网公开数据标签：人工智能,语言检测,NLP,自然语言处理,开源软件,Naive Bayes算法,数据处理,机器学习数据概述：本数据集是用于训练人工智能语言检测软件的数据集合，由资深人工智能工程师Emirhan BULUT开发并公开分享。数据集涵盖了多种语言文本样本，用于训练和优化Naive...

ZIP

卢旺达语数据集

2025年4月14日 30 191 69

卢旺达语数据集数据来源：互联网公开数据标签：卢旺达语,法语,英语,斯瓦希里语,语言检测,机器学习,自然语言处理数据概述：本数据集旨在用于训练和测试能够识别四种语言文本的语言检测人工智能模型，包括卢旺达语、法语、英语和斯瓦希里语。数据集包含每种语言的多样化文本样本，适用于训练机器学习模型。每个文本样本都标注了相应的语言，以支持监督学习。...

ZIP

语言检测数据集

2025年4月14日 30 33 15

语言检测数据集数据来源：互联网公开数据标签：语言检测,文本分类,社交媒体分析,推特数据,多语言处理数据概述：本数据集包含收集自2021年至2022年间推特上特定话题标签的推文数据，涵盖英语、法语和摩洛哥方言达里贾三种语言。数据集共包含约420行每种语言的数据，总计13153行，每行数据包括两个列：推文内容和对应的标签。数据用途概述：...

ZIP

找到16个数据集

注册成功！