数据集 - 海数据

多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar

2025年5月6日

多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar 数据来源：互联网公开数据标签：文本分类, 语言识别, 自然语言处理, 多语言, 机器学习, 数据标注, 文本分析, 语种检测数据概述：该数据集包含来自多种语言的文本样本，用于语言检测任务。主要特征如下：...

ZIP

大规模语言检测数据集

2025年5月5日

大规模语言检测数据集数据来源：互联网公开数据标签：语言检测,ISO 639-3,自然语言处理,多语言支持,文本分析,语言识别,机器学习数据概述：本数据集包含一个约10^7行的.csv文件，每行记录包含一个句子及其对应的ISO 639-3语言代码。此外，数据集还包括一个.json文件，用于映射ISO...

ZIP

印地语文本语言识别数据集HindiTextLanguageIdentification-ayushmi77al

2025年5月1日

印地语文本语言识别数据集HindiTextLanguageIdentification-ayushmi77al 数据来源：互联网公开数据标签：文本分类, 语言识别, 印地语, 自然语言处理, 文本分析, 多语言, 机器学习, 语料库数据概述：该数据集包含印地语文本数据，记录了印地语文本的内容及其对应的语言标签。主要特征如下：...

ZIP

多语言文本语料库语言识别数据集MultilingualTextCorpusLanguageIdentificationDataset-lalitmach22

2025年5月1日

多语言文本语料库语言识别数据集MultilingualTextCorpusLanguageIdentificationDataset-lalitmach22 数据来源：互联网公开数据标签：语言识别, 文本分类, 多语言, 语料库, 自然语言处理, 机器学习, 文本分析, 数据集数据概述：...

ZIP

健康新闻文本多维度特征分析数据集HealthNewsTextMulti-dimensionalFeatureAnalysis-eyamethnani

2025年5月1日

健康新闻文本多维度特征分析数据集HealthNewsTextMulti-dimensionalFeatureAnalysis-eyamethnani 数据来源：互联网公开数据标签：文本分析, 健康新闻, 自然语言处理, 情感分析, 语言识别, 文本特征, 数据清洗, 机器学习数据概述：...

ZIP

推特用户推文语言与情感分类数据集TwitterUserTweetLanguageandSentimentClassification-louialouza

2025年5月1日

推特用户推文语言与情感分类数据集TwitterUserTweetLanguageandSentimentClassification-louialouza 数据来源：互联网公开数据标签：推特数据, 情感分析, 文本分类, 社交媒体, 用户行为, 自然语言处理, 语言识别, 数据标注数据概述：...

ZIP

K-POP艺人社交媒体文本数据分析数据集K-POPArtistsSocialMediaTextDataAnalysis-aditisatsangi

2025年5月1日

K-POP艺人社交媒体文本数据分析数据集K-POPArtistsSocialMediaTextDataAnalysis-aditisatsangi 数据来源：互联网公开数据标签：K-POP, 社交媒体, 文本分析, 语言识别, 情感分析, 粉丝互动, 艺人评价, 舆情分析数据概述：该数据集包含来自社交媒体平台的K-...

ZIP

阿拉伯语文本地域信息标注数据集ArabicTextGeolocationDataset-kamstats

2025年4月30日

阿拉伯语文本地域信息标注数据集ArabicTextGeolocationDataset-kamstats 数据来源：互联网公开数据标签：文本分析, 地理位置, 阿拉伯语, 语言识别, 自然语言处理, 数据标注, 文本分类, 跨文化研究数据概述：该数据集包含来自互联网的阿拉伯语文本，并标注了相应的地理位置信息。主要特征如下：...

ZIP

社交媒体推文内容分析数据集SocialMediaTweetContentAnalysis-aakankshachouhan

2025年4月29日

社交媒体推文内容分析数据集SocialMediaTweetContentAnalysis-aakankshachouhan 数据来源：互联网公开数据标签：社交媒体, 推文分析, 文本挖掘, 情感分析, 话题识别, 语言识别, 数据清洗, 舆情分析数据概述：...

ZIP

文本语言识别数据集TextLanguageIdentificationDataset-abdullahkhan098

2025年4月29日

文本语言识别数据集TextLanguageIdentificationDataset-abdullahkhan098 数据来源：互联网公开数据标签：文本分析, 语言识别, 自然语言处理, 多语言, 文本分类, 数据标注, 机器翻译, 语料库数据概述：...

ZIP

多语言文档标识符数据集MultilingualDocumentIdentifierDataset-fredriknguyenepfl0

2025年4月29日

多语言文档标识符数据集MultilingualDocumentIdentifierDataset-fredriknguyenepfl0 数据来源：互联网公开数据标签：文档标识, 多语言, 文本数据, 语料库, 语言识别, 数据清洗, 信息检索, 机器翻译数据概述：该数据集包含来自不同语言的文档标识符，记录了多种语言文档的唯一编号。主要特征如下：...

ZIP

文本语言识别数据集TextLanguageIdentificationDataset-kanhakhantaal

2025年4月29日

文本语言识别数据集TextLanguageIdentificationDataset-kanhakhantaal 数据来源：互联网公开数据标签：语言识别, 文本分析, 自然语言处理, 文本分类, 多语言, 机器学习, 语料库, 文本预处理数据概述：该数据集包含来自互联网的文本数据，记录了不同文本内容及其对应的语言标签。主要特征如下：...

ZIP

多语言文本自动识别数据集MultilingualTextAuto-IdentificationDataset-rickyaryansah

2025年4月29日

多语言文本自动识别数据集MultilingualTextAuto-IdentificationDataset-rickyaryansah 数据来源：互联网公开数据标签：文本识别, 多语言, 自然语言处理, 语言分类, 文本分类, 机器学习, 语料库, 文本分析数据概述：该数据集包含多种语言的文本样本，用于训练和评估自动语言识别模型。主要特征如下：...

ZIP

多语言文本蕴含关系推理数据集MultilingualTextualEntailmentReasoningDataset-mariasolano

2025年4月29日

多语言文本蕴含关系推理数据集MultilingualTextualEntailmentReasoningDataset-mariasolano 数据来源：互联网公开数据标签：文本蕴含, 自然语言推理, 多语言, 语言识别, 文本匹配, 机器阅读理解, 语义分析, 情感分析数据概述：...

ZIP

维基多语言文本分类数据集-2018

2025年4月26日

维基多语言文本分类数据集-2018 数据来源：互联网公开数据标签：文本分类,多语言,自然语言处理,机器学习,语言识别,维基百科,NLP,数据集数据概述：...

ZIP

合并的Dataverse语言识别数据集MergedDataverseBhashaLanguageRecognitionDataset-samansarkerjoy

2025年4月24日

合并的Dataverse语言识别数据集MergedDataverseBhashaLanguageRecognitionDataset-samansarkerjoy 数据来源：互联网公开数据标签：语言识别，数据集，自然语言处理，机器学习，语音识别，多语言，人工智能，数据分析数据概述：...

ZIP

社交媒体文本中的冒犯性语言识别数据集OffensiveSpanishIdentificationinSocialMediaTexts-shashankpandey2411

2025年4月24日

社交媒体文本中的冒犯性语言识别数据集OffensiveSpanishIdentificationinSocialMediaTexts-shashankpandey2411 数据来源：互联网公开数据标签：社交媒体，语言识别，数据集，文本分析，机器学习，自然语言处理，情感分析，西班牙语数据概述：...

ZIP

语言识别数据集LanguageDetectorDataset-meet07824

2025年4月24日

语言识别数据集LanguageDetectorDataset-meet07824 数据来源：互联网公开数据标签：语言识别，数据集，自然语言处理，机器学习，文本分类，多语言，人工智能，数据分析数据概述：该数据集包含来自公开来源的语言识别数据，记录了不同语言的文本样本及其对应的语言标签。主要特征如下：...

ZIP

语言识别数据集HalfdatasetLanguageIdentificationDataset-amitverma2030

2025年4月23日

语言识别数据集HalfdatasetLanguageIdentificationDataset-amitverma2030 数据来源：互联网公开数据标签：语言识别，数据集，自然语言处理，机器学习，文本分类，多语言，数据挖掘，人工智能数据概述：该数据集包含来自多个语言样本的文本数据，记录了不同语言的文本片段及其对应的语言标签。主要特征如下：...

ZIP

数据10000条样本语言识别数据集-amitverma2030

2025年4月23日

10000条样本语言识别数据集-amitverma2030 数据来源：互联网公开数据标签：语言识别，数据集，自然语言处理，文本分类，机器学习，文本分析，语言学，人工智能数据概述：该数据集包含10000条文本样本，用于语言识别任务。主要特征如下：时间跨度：数据无明确的时间范围，为静态数据集。地理范围：数据涵盖多种语言，文本来源多样。...

ZIP

找到43个数据集

注册成功！