-
WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集
2025年12月12日 30 73 56
数据集概述 该数据集是Wikipedia语言识别基准数据集,包含235种语言的235000个段落,数据分布均衡,并提供训练集和测试集的划分。 文件详解 文件名称: wili-2018.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内包含数据集的完整内容,具体字段及结构需解压后查看原始文件 适用场景 自然语言处理研究:...
-
文章提及语言及其ISO代码列表_延续循环
2025年12月4日 30 80 78
数据集概述 本数据集为单一PDF文件,内容是文章《延续循环》中提及的语言及其对应的ISO代码列表,为语言相关研究或应用提供标准化编码参考。 文件详解 文件名称:The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式:PDF...
-
WoLLaI_Mal_Eng_单词级语言识别数据集
2025年11月29日 30 167 142
数据集概述 本数据集是针对马拉雅拉姆语-英语混合文本的单词级语言识别标注数据,包含一万二千四百零二个句子,标注类别分为马拉雅拉姆语(Mal)、英语(Eng)、混合词(Mix)和其他(Othr)四类,支持自然语言处理领域的语言识别任务研究。 文件详解 该数据集包含三个格式的文件,具体说明如下: - 文件名称:...
-
多语言文本语义相似度分析数据集MultilingualTextSemanticSimilarityAnalysisDataset-mehtaronit
2025年5月30日 30 98 92
多语言文本语义相似度分析数据集MultilingualTextSemanticSimilarityAnalysisDataset-mehtaronit 数据来源:互联网公开数据 标签:文本相似度, 多语言, 语义分析, 文本匹配, 机器翻译, 自然语言处理, 数据集, 语言识别 数据概述:...
-
阿拉伯语手语数据集阿拉伯语手语数据集-sumayahalwadei
2025年5月30日 30 164 134
阿拉伯语手语数据集阿拉伯语手语数据集-sumayahalwadei 数据来源:互联网公开数据 标签:手语,阿拉伯语,数据集,语言识别,机器学习,自然语言处理,教育,文化交流 数据概述: 该数据集包含经过修改的阿拉伯语手语视频数据,记录了阿拉伯语手语的多种表达方式。主要特征如下: 时间跨度: 数据记录的时间范围从2015年到2020年。 地理范围:...
-
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0
2025年5月29日 30 84 12
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0 数据来源:互联网公开数据 标签:电子政务, 问答系统, 自然语言处理, 信息检索, 文本分析, 机器学习, 语言识别, 哈萨克斯坦 数据概述:...
-
多语言情感分析电影评论数据集MultilingualSentimentAnalysisMovieReviews-smitzaveri
2025年5月29日 30 74 42
多语言情感分析电影评论数据集MultilingualSentimentAnalysisMovieReviews-smitzaveri 数据来源:互联网公开数据 标签:情感分析, 文本分类, 多语言, 电影评论, 机器学习, 自然语言处理, 语言识别, 数据标注 数据概述:...
-
代码笔记语言识别与排名数据集CodeNotebookLanguageIdentificationandRanking-kirderf
2025年5月29日 30 193 164
代码笔记语言识别与排名数据集CodeNotebookLanguageIdentificationandRanking-kirderf 数据来源:互联网公开数据 标签:代码笔记, 语言识别, 文本分析, 机器学习, 排名预测, 自然语言处理, 数据标注, 代码分析 数据概述:...
-
俄罗斯社交媒体内容分析数据集RussiaSocialMediaContentAnalysis-dawndarasms
2025年5月28日 30 65 8
俄罗斯社交媒体内容分析数据集RussiaSocialMediaContentAnalysis-dawndarasms 数据来源:互联网公开数据 标签:社交媒体, 文本分析, 俄罗斯, 内容分析, 舆情监测, 政治传播, 语言识别, 数据挖掘 数据概述: 该数据集包含来自社交媒体平台的数据,记录了与俄罗斯相关的社交媒体内容。主要特征如下:...
-
多语言问答查询数据集MultilingualQuestionAnsweringQueryDataset-christinakopidaki
2025年5月26日 30 12 3
多语言问答查询数据集MultilingualQuestionAnsweringQueryDataset-christinakopidaki 数据来源:互联网公开数据 标签:问答系统, 自然语言处理, 机器阅读理解, 文本检索, 多语言, 问句分析, 语料库, 语言识别 数据概述:...
-
新冠疫情社交媒体文本分析数据集COVID-19SocialMediaTextAnalysisDataset-senkoushik95
2025年5月26日 30 110 53
新冠疫情社交媒体文本分析数据集COVID-19SocialMediaTextAnalysisDataset-senkoushik95 数据来源:互联网公开数据 标签:新冠疫情, 社交媒体, 文本分析, 舆情分析, 语言识别, 机器学习, 情感分析, 文本挖掘 数据概述:...
-
多语种文本语言识别数据集MultilingualTextLanguageIdentificationDataset-pranavagrawal09
2025年5月19日 30 76 74
多语种文本语言识别数据集MultilingualTextLanguageIdentificationDataset-pranavagrawal09 数据来源:互联网公开数据 标签:文本分析, 语言识别, 自然语言处理, 多语言, 语种标注, 机器学习, 文本分类, 语料库 数据概述:...
-
多语种文本语言识别数据集MultilingualTextLanguageDetectionDataset-adarshtambe
2025年5月18日 30 15 8
多语种文本语言识别数据集MultilingualTextLanguageDetectionDataset-adarshtambe 数据来源:互联网公开数据 标签:文本分类, 语言识别, 自然语言处理, 机器学习, 多语言, 文本分析, 数据标注, 语料库 数据概述:...
-
多语言文本情感分析数据集MultilingualTextSentimentAnalysis-iitm21f3001013
2025年5月18日 30 81 25
多语言文本情感分析数据集MultilingualTextSentimentAnalysis-iitm21f3001013 数据来源:互联网公开数据 标签:情感分析, 文本分类, 多语言, 机器学习, 自然语言处理, 语言识别, 情感标注, 文本语料 数据概述: 该数据集包含来自多种语言的文本,记录了用于情感分析的句子及其对应的情感标签。主要特征如下:...
-
讽刺检测标注数据集LabeledDatasetforSarcasmDetection-muhammadfaisalali
2025年5月14日 30 180 170
讽刺检测标注数据集LabeledDatasetforSarcasmDetection-muhammadfaisalali 数据来源:互联网公开数据 标签:自然语言处理,情感分析,数据集,机器学习,文本分类,社会媒体,心理学,语言识别 数据概述: 该数据集包含来自社交媒体和网络论坛的文本数据,记录了带有标签的讽刺和非讽刺语句。主要特征如下:...
-
多语言文本分类训练数据集MultilingualTextClassificationTrainingDataset-jvkchaitanya410
2025年5月12日 30 47 1
多语言文本分类训练数据集MultilingualTextClassificationTrainingDataset-jvkchaitanya410 数据来源:互联网公开数据 标签:文本分类, 多语言, 机器翻译, 语言识别, 自然语言处理, 语料库, 文本挖掘, 数据标注 数据概述:...
-
多语言文本检测数据集MultilingualTextDetectionDataset-sakaramtrupthi
2025年5月11日 30 165 105
多语言文本检测数据集MultilingualTextDetectionDataset-sakaramtrupthi 数据来源:互联网公开数据 标签:文本分类, 语言识别, 自然语言处理, 多语言, 机器学习, 数据集, 文本分析, 语种 数据概述: 该数据集包含来自互联网的文本数据,记录了不同语言的文本内容及其对应的语言标签。主要特征如下:...
-
多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar
2025年5月6日 30 120 33
多语种文本语言检测数据集MultilingualTextLanguageDetectionDataset-kmamitakatiyar 数据来源:互联网公开数据 标签:文本分类, 语言识别, 自然语言处理, 多语言, 机器学习, 数据标注, 文本分析, 语种检测 数据概述: 该数据集包含来自多种语言的文本样本,用于语言检测任务。主要特征如下:...
-
大规模语言检测数据集
2025年5月5日 30 201 83
大规模语言检测数据集 数据来源:互联网公开数据 标签:语言检测,ISO 639-3,自然语言处理,多语言支持,文本分析,语言识别,机器学习 数据概述: 本数据集包含一个约10^7行的.csv文件,每行记录包含一个句子及其对应的ISO 639-3语言代码。此外,数据集还包括一个.json文件,用于映射ISO...
-
印地语文本语言识别数据集HindiTextLanguageIdentification-ayushmi77al
2025年5月1日 30 179 166
印地语文本语言识别数据集HindiTextLanguageIdentification-ayushmi77al 数据来源:互联网公开数据 标签:文本分类, 语言识别, 印地语, 自然语言处理, 文本分析, 多语言, 机器学习, 语料库 数据概述: 该数据集包含印地语文本数据,记录了印地语文本的内容及其对应的语言标签。主要特征如下:...



