-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 125 100
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
词汇简化可靠数据集BenchLS
2025年12月8日 30 169 91
数据集概述 该数据集为词汇简化研究提供可靠资源,整合LexMTurk与LSeval数据集的929个实例,每个实例包含句子、目标复杂词及按简单性排序的候选替换词。经拼写过滤和词形变化校正处理,平均每个复杂词对应7.37个候选词。 文件详解 文件名称:BenchLS.zip 文件格式:ZIP压缩包...
-
梵语词分割数据集
2025年12月4日 30 195 169
数据集概述 该数据集针对梵语词分割任务构建,包含约十一万五千个句子,每个句子提供输入字符序列、真实分割结果及所有语音可能分割的词汇和形态信息,为梵语手稿的句法与语义处理提供基础数据支持。 文件详解 该数据集包含七个文件,具体说明如下: - 压缩文件: - DCS_pick.zip:压缩文件,可能包含实验相关的Pickle格式数据 -...
-
多源英文文本语句数据集Multi-sourceEnglishTextSentenceDataset-mfekadu
2025年5月13日 30 104 37
多源英文文本语句数据集Multi-sourceEnglishTextSentenceDataset-mfekadu 数据来源:互联网公开数据 标签:文本数据, 英文语句, 语料库, 自然语言处理, 文本分析, 句子, 语言学, 数据集 数据概述: 该数据集包含来自多个来源的英文文本语句,旨在为自然语言处理任务提供多样化的语料支持。主要特征如下:...
-
文学作品句子语料数据集LiterarySentenceCorpus-harshm27
2025年4月29日 30 51 22
文学作品句子语料数据集LiterarySentenceCorpus-harshm27 数据来源:互联网公开数据 标签:文学, 句子, 语料库, 文本分析, 自然语言处理, 文本挖掘, 情感分析, 语言学 数据概述: 该数据集包含来自古腾堡计划(Project Gutenberg)电子书的句子数据,记录了文学作品中的句子片段。主要特征如下:...
-
越南喃字词汇与句子数据集VietnameseNomCharacterVocabularyandSentences-dktahuio
2025年4月29日 30 72 66
越南喃字词汇与句子数据集VietnameseNomCharacterVocabularyandSentences-dktahuio 数据来源:互联网公开数据 标签:喃字, 越南语, 词汇, 句子, 语言学, 文本分析, 古籍, 历史文献 数据概述:...
-
维基百科句子数据集WikiSentencesDataset-sgedela
2025年4月24日 30 79 23
维基百科句子数据集WikiSentencesDataset-sgedela 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,句子,语言模型,文本分析,机器学习,语料库 数据概述:该数据集包含来自维基百科的句子数据,旨在为自然语言处理任务提供高质量的文本语料库。主要特征如下:...
-
辩论场景句子数据集DebateSentencesDataset-vdudani
2025年4月23日 30 186 82
辩论场景句子数据集DebateSentencesDataset-vdudani 数据来源:互联网公开数据 标签:辩论,句子,文本分析,自然语言处理,数据集,情感分析,语言学,机器学习 数据概述: 该数据集包含了从公开辩论场景中提取的句子,旨在用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间范围不限,涵盖了不同时期的辩论场景。...
-
索马里语文本语料库-清洗后句子数据集-hassen7
2025年4月22日 30 183 111
索马里语文本语料库-清洗后句子数据集-hassen7 数据来源:互联网公开数据 标签:索马里语,语言学,文本数据,自然语言处理,句子,清洗,语料库 数据概述:...
-
乌尔都语句子数据集-2023年-sheerazhussain
2025年4月21日 30 21 20
乌尔都语句子数据集-2023年-sheerazhussain 数据来源:互联网公开数据 标签:乌尔都语,句子,语言学,文本分析,自然语言处理,语言数据 数据概述: 本数据集包含一小部分乌尔都语句子,适合用于语言学研究、文本分析和自然语言处理任务。数据集中的句子涵盖了乌尔都语的多种语言特征和语法结构,为研究人员提供了基础的语言数据资源。 数据用途概述:...
-
德国300万句子数据集
2025年4月19日 30 68 4
德国300万句子数据集 数据来源:互联网公开数据 标签:德语,句子,语料库,语言学研究,自然语言处理,文本分析,频率统计 数据概述:...



