-
斯瓦希里语语音数据集SwahiliTrainSplitDataset-rainmaker29
斯瓦希里语语音数据集SwahiliTrainSplitDataset-rainmaker29 数据来源:互联网公开数据 标签:斯瓦希里语,语音识别,数据集,自然语言处理,机器学习,语音技术,人工智能,语言学 数据概述: 该数据集包含来自互联网公开的斯瓦希里语语音数据,主要用于语音识别和自然语言处理的研究。主要特征如下:... -
阿拉伯语手语与阿拉伯英文句子对应数据集-mohamedlotfy50
阿拉伯语手语与阿拉伯英文句子对应数据集-mohamedlotfy50 数据来源:互联网公开数据 标签:阿拉伯语手语,机器翻译,自动翻译,教育,语言学,翻译,手语数据,阿拉伯语,英语 数据概述:... -
Spotify巴西热门歌词数据集-1947年至今-vitoriafirmino
Spotify巴西热门歌词数据集-1947年至今-vitoriafirmino 数据来源:互联网公开数据 标签:歌词,巴西,Spotify,音乐,流行文化,语言学,NLP,情感分析,音乐趋势,时间序列 数据概述:... -
印度语电影字幕数据集HindiLanguageMovieSubtitlesDataset-mogazeyalmogazey
印度语电影字幕数据集HindiLanguageMovieSubtitlesDataset-mogazeyalmogazey 数据来源:互联网公开数据 标签:印度语,电影,字幕,自然语言处理,文本分析,语言学,机器翻译,数据集 数据概述: 该数据集包含了印度语电影的字幕数据,记录了大量印度语电影的字幕文本。主要特征如下:... -
自然语言处理文本分类数据集NLPProcessingTextClassificationDataset-jasleen234
自然语言处理文本分类数据集NLPProcessingTextClassificationDataset-jasleen234 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,深度学习,人工智能,文本分析,语言学 数据概述:该数据集包含来自多个来源的文本数据,主要用于自然语言处理中的文本分类任务。主要特征如下:... -
句子类型识别数据集SentenceTypeDataDataset-truongthanh081203
句子类型识别数据集SentenceTypeDataDataset-truongthanh081203 数据来源:互联网公开数据 标签:句子类型,自然语言处理,数据集,文本分析,机器学习,语言学,人工智能,数据科学 数据概述:... -
英语到西班牙语翻译数据集English-to-SpanishTranslationDataset-hareeeshhh
英语到西班牙语翻译数据集English-to-SpanishTranslationDataset-hareeeshhh 数据来源:互联网公开数据 标签:机器翻译,数据集,自然语言处理,翻译模型,语言学,深度学习,文本数据,英语西班牙语 数据概述: 该数据集包含英语到西班牙语的翻译对,记录了英语文本及其对应的西班牙语翻译。主要特征如下:... -
比哈尔邦2011年母语使用情况数据集Bihar2011MotherTongueUsageDataset-virendrasahu
比哈尔邦2011年母语使用情况数据集Bihar2011MotherTongueUsageDataset-virendrasahu 数据来源:互联网公开数据 标签:语言学,人口统计,数据集,印度,母语,社会学,文化研究,人口普查 数据概述: 该数据集来源于2011年印度人口普查,记录了比哈尔邦居民的母语使用情况。主要特征如下:... -
泰米尔语情感分析数据集EmotionAnalysisinTamilDataset-pikachu2001
泰米尔语情感分析数据集EmotionAnalysisinTamilDataset-pikachu2001 数据来源:互联网公开数据 标签:情感分析,自然语言处理,数据集,机器学习,泰米尔语,文本分析,人工智能,语言学 数据概述:... -
姓名发音性别预测数据集-amritvirsinghx
姓名发音性别预测数据集-amritvirsinghx 数据来源:互联网公开数据 标签:姓名,发音,性别预测,自然语言处理,机器学习,语音识别,数据挖掘,语言学 数据概述: 本数据集包含超过1000个姓名及其对应的性别信息,旨在为基于发音的性别预测研究提供数据支持。数据内容涵盖了不同文化背景下的姓名,为模型训练提供了多样化的样本。 数据用途概述:... -
多语言词汇数据集WordswithLanguagesDataset-mansigarg18
多语言词汇数据集WordswithLanguagesDataset-mansigarg18 数据来源:互联网公开数据 标签:语言学习,词汇数据,数据集,自然语言处理,教育技术,多语言,语言学,数据挖掘 数据概述: 该数据集包含来自多种语言词汇的数据,记录了不同语言中的常见词汇及其相关信息。主要特征如下:... -
俄罗斯单词重音预测数据集-williamsutcliffe
俄罗斯单词重音预测数据集-williamsutcliffe 数据来源:互联网公开数据 标签:俄罗斯,重音,语言学,深度学习,RNN,Transformer,字符标记化,语音学 数据概述:... -
古兰经阿拉伯语词根数据集-mazharkarimi
古兰经阿拉伯语词根数据集-mazharkarimi 数据来源:互联网公开数据 标签:古兰经,阿拉伯语,词根,语言学,文本分析,自然语言处理,宗教研究,语义分析 数据概述: 该数据集包含了古兰经中出现的阿拉伯语词根信息。主要特征如下: 时间跨度: 数据记录的时间范围为古兰经的创作时期。 地理范围: 数据涵盖了古兰经文本中使用的所有阿拉伯语词根。... -
柬埔寨公共工程与运输部MPWT高棉语语音数据集-sovanndaradiep
柬埔寨公共工程与运输部MPWT高棉语语音数据集-sovanndaradiep 数据来源:互联网公开数据 标签:语音识别,高棉语,数据集,语音信号处理,自然语言处理,声学模型,语音合成,语言学 数据概述: 该数据集包含来自柬埔寨公共工程与运输部(MPWT)的高棉语语音数据,旨在用于语音识别,语音合成等研究。主要特征如下:... -
CommonLit文本阅读理解训练数据集CommonLitReadabilityPrizeDataset-mcpenguin
CommonLit文本阅读理解训练数据集CommonLitReadabilityPrizeDataset-mcpenguin 数据来源:互联网公开数据 标签:文本分析,阅读理解,自然语言处理,教育,数据集,机器学习,文本难度,语言学 数据概述: 该数据集包含CommonLit公司提供的文本阅读理解训练数据,旨在评估文本的可读性和难度。主要特征如下:... -
自然语言处理特征工程数据集FeatureEngineeringforNLPDataAcquisition-ebaruti
自然语言处理特征工程数据集FeatureEngineeringforNLPDataAcquisition-ebaruti 数据来源:互联网公开数据 标签:自然语言处理,特征工程,数据集,文本分析,机器学习,语言学,数据科学,人工智能... -
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia 数据来源:互联网公开数据 标签:自然语言处理,文本分析,停用词,越南语,数据集,语言学,文本挖掘,信息检索 数据概述: 该数据集包含了越南语的停用词列表,旨在帮助文本处理和自然语言处理任务。主要特征如下:... -
讽刺文本检测数据集-raviutsavk
讽刺文本检测数据集-raviutsavk 数据来源:互联网公开数据 标签:文本分析,情感分析,讽刺检测,自然语言处理,机器学习,数据集,社交媒体,语言学 数据概述: 该数据集包含了用于讽刺文本检测的数据,记录了带有讽刺意味的文本及其对应的标签。主要特征如下: 时间跨度:数据记录的时间范围不限,涵盖了不同时期和类型的讽刺文本。... -
爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan
爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan 数据来源:互联网公开数据 标签:语料库,古语,中古爱尔兰语,自然语言处理,词典,语言学,历史,文化,文本分析 数据概述: 本数据集为《爱尔兰古语与中古爱尔兰语语料库》(Corpus PalaeoHibernicum,... -
矮人要塞游戏虚构语言名词词汇数据集-jerimee
矮人要塞游戏虚构语言名词词汇数据集-jerimee 数据来源:互联网公开数据 标签:矮人要塞,游戏,语言学,名词,词汇,虚构语言,矮人语,精灵语,地精语,人类语 数据概述: 本数据集收录了矮人要塞(Dwarf Fortress)游戏中使用的虚构语言名词词汇,这些词汇主要用于游戏内的人物、地点和区域命名。数据来源于DF-...