-
伊博语重音符号恢复数据集
2025年5月31日 30 25 7
伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:... -
印度英语-阿迪提语料库数据集Hinglish-AditiCorpusDataset-donutkashvi
2025年5月29日 30 24 6
印度英语-阿迪提语料库数据集Hinglish-AditiCorpusDataset-donutkashvi 数据来源:互联网公开数据 标签:印度英语,语料库,自然语言处理,文本分析,语言学,机器学习,文本数据,语言资源 数据概述: 该数据集包含来自阿迪提语料库的印度英语文本数据,记录了印度英语的各种语言现象。主要特征如下:... -
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak
2025年5月29日 30 12 2
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak 数据来源:互联网公开数据 标签:维基百科,土耳其语,数据集,自然语言处理,文本分析,机器学习,语言资源,文本挖掘 数据概述: 该数据集包含来自维基百科的土耳其语文本数据,记录了维基百科平台上土耳其语条目的完整内容。主要特征如下:... -
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary
2025年5月28日 30 18 3
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary 数据来源:互联网公开数据 标签:词库,输入法,数据集,中文,自然语言处理,语言资源,文本处理,机器学习 数据概述: 该数据集包含通用拼音输入法(GPNU)的完整词库数据,记录了中文词语及其对应的拼音信息。主要特征如下:... -
公司英语数据集CompanyEnglishDataset-rosdianashahril
2025年5月13日 30 28 1
公司英语数据集CompanyEnglishDataset-rosdianashahril 数据来源:互联网公开数据 标签:英语学习,企业培训,数据集,语言资源,自然语言处理,教育技术,商业沟通,职场英语 数据概述: 该数据集包含来自企业环境的英语文本数据,记录了公司内部沟通、商业邮件、培训资料等场景中的英语使用情况。主要特征如下:... -
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi
2025年5月1日 30 30 3
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi 数据来源:互联网公开数据 标签:文本对齐, 机器翻译, 语言学, 南非语, 语料库, 自然语言处理, 文本分析, 语言资源 数据概述: 该数据集包含来自南非北部索托语的文本对齐数据,记录了不同语句在语料库中的对应关系。主要特征如下:... -
尼日利亚努佩语单语语料库数据集NupeMonolingualCorpus-davidvictor297
2025年5月1日 30 21 3
尼日利亚努佩语单语语料库数据集NupeMonolingualCorpus-davidvictor297 数据来源:互联网公开数据 标签:语言学, 语料库, 努佩语, 自然语言处理, 文本分析, 语言资源, 文本语料, 尼日利亚 数据概述:... -
南非国家文化与语言技术委员会NCLT斯瓦希里语料库元数据数据集NCLTSwahiliCorpusMetadata-rewardmathebula
2025年5月1日 30 21 3
南非国家文化与语言技术委员会NCLT斯瓦希里语料库元数据数据集NCLTSwahiliCorpusMetadata-rewardmathebula 数据来源:互联网公开数据 标签:斯瓦希里语, 语料库, 元数据, 语言学, 文本分析, 语言资源, 南非, 自然语言处理 数据概述:... -
菲律宾宿务语DaddyBen系列文本数据集CebuanoDaddyBenTextCorpus-benzajtil
2025年4月29日 30 20 9
菲律宾宿务语DaddyBen系列文本数据集CebuanoDaddyBenTextCorpus-benzajtil 数据来源:互联网公开数据 标签:宿务语, 文本语料库, 方言, 语言学, 文本分析, 文化研究, 对话文本, 语言资源 数据概述: 该数据集包含来自菲律宾宿务语(Cebuano)的Daddy... -
乌尔都语罗马转写资源数据集-zeshanali
2025年4月26日 30 14 8
乌尔都语罗马转写资源数据集-zeshanali 数据来源:互联网公开数据 标签:乌尔都语,罗马转写,语言资源,自然语言处理,数据集,文本分析,机器翻译,文本转换 数据概述: 该数据集包含了乌尔都语的罗马字母转写文本资源。主要特征如下: 时间跨度:数据涵盖了不同时期的乌尔都语文本。 地理范围:数据主要来源于乌尔都语使用者群体。... -
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth
2025年4月25日 30 26 10
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth 数据来源:互联网公开数据 标签:语言翻译,语料库,自然语言处理,多语言,机器翻译,文本分析,语言资源,人工智能 数据概述: 该数据集包含来自英语到豪萨语的平行语料,记录了双语文本对,适用于机器翻译和语言学研究。主要特征如下:... -
基尼瓦尔语对话数据集KinyarwandaConversationDatasets-iranzidev
2025年4月25日 30 17 5
基尼瓦尔语对话数据集KinyarwandaConversationDatasets-iranzidev 数据来源:互联网公开数据 标签:基尼瓦尔语,对话数据,自然语言处理,语音识别,多语言,机器学习,语言资源,非洲语言 数据概述: 该数据集包含来自基尼瓦尔语(卢旺达官方语言之一)的对话数据,记录了基尼瓦尔语的口语交流内容。主要特征如下:... -
楚瓦什语维基百科平行语料库数据集Chuvash-WikiParallelCorpusDataset-kvzhirnov
2025年4月25日 30 12 3
楚瓦什语维基百科平行语料库数据集Chuvash-WikiParallelCorpusDataset-kvzhirnov 数据来源:互联网公开数据 标签:语言资源,平行语料库,自然语言处理,机器翻译,楚瓦什语,维基百科,多语言数据,文本分析 数据概述:... -
阿拉伯语新闻数据集ArabicNewsDatasetfromSabqWebsite-abdulrahmanals
2025年4月25日 30 27 3
阿拉伯语新闻数据集ArabicNewsDatasetfromSabqWebsite-abdulrahmanals 数据来源:互联网公开数据 标签:阿拉伯语,新闻数据,数据集,自然语言处理,文本分析,机器学习,新闻分类,语言资源 数据概述: 该数据集包含来自沙特阿拉伯Sabq新闻网站的文章数据,记录了网站发布的阿拉伯语新闻报道。主要特征如下:... -
阿法奥罗莫语维基百科数据集AfaanOromoWikipediaDataset-beknanchemedabeki
2025年4月25日 30 13 7
阿法奥罗莫语维基百科数据集AfaanOromoWikipediaDataset-beknanchemedabeki 数据来源:互联网公开数据 标签:维基百科,语言资源,数据集,自然语言处理,文本挖掘,多语言,人工智能,语言学 数据概述: 该数据集包含来自阿法奥罗莫语维基百科的文本数据,记录了阿法奥罗莫语维基百科的完整内容。主要特征如下:... -
尼泊尔语词典数据集NepaliDictionaryDataset-rakeshniraula
2025年4月24日 30 18 4
尼泊尔语词典数据集NepaliDictionaryDataset-rakeshniraula 数据来源:互联网公开数据 标签:语言学习,词典,数据集,尼泊尔语,词汇,教育,翻译,语言资源 数据概述: 该数据集包含来自尼泊尔语词典的数据,记录了尼泊尔语的词汇及其对应的释义和用法。主要特征如下: 时间跨度:数据记录的时间范围从词典的最初版本到最近更新。... -
词汇数据集Lexicon-CleanDataset-jvmchik
2025年4月24日 30 15 7
词汇数据集Lexicon-CleanDataset-jvmchik 数据来源:互联网公开数据 标签:语言学,词汇学,数据集,自然语言处理,文本分析,教育研究,数据清洗,语言资源 数据概述: 该数据集包含经过清洗和标准化的词汇数据,记录了多种语言的词汇信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,主要为静态词汇数据。... -
印地语维基百科数据集HindiWikipediaDataset-vjdwary
2025年4月23日 30 27 5
印地语维基百科数据集HindiWikipediaDataset-vjdwary 数据来源:互联网公开数据 标签:维基百科,印地语,数据集,自然语言处理,文本分析,机器学习,语言资源,多语言处理 数据概述: 该数据集包含来自印地语维基百科的文本数据,记录了维基百科上的文章内容。主要特征如下:... -
土耳其语通用依存树库数据集TurkishUniversalDependenciesDataset-emirkaanozdemr
2025年4月23日 30 13 5
土耳其语通用依存树库数据集TurkishUniversalDependenciesDataset-emirkaanozdemr 数据来源:互联网公开数据 标签:语言学,依存句法,自然语言处理,土耳其语,数据集,句法分析,语言资源,机器学习 数据概述: 该数据集包含土耳其语的通用依存树库,记录了土耳其语文本的依存句法结构。主要特征如下:... -
美国人口普查姓名数据集2000-2010
2025年4月15日 30 26 1
美国人口普查姓名数据集2000-2010 数据来源:互联网公开数据 标签:美国人口普查,姓名,名字,姓氏,时间序列,数据清洗,语言资源 数据概述: 本数据集包含两个从美国人口普查获取的数据文件,以及三个从多元来源提取的.tsv文件。具体文件包括: - yob2000.txt:2000年美国人口普查中的男性和女性名字及其出现频率。 -...