-
语言词源关系数据集-bilalelebi
2025年6月1日 30 7 2
语言词源关系数据集-bilalelebi 数据来源:互联网公开数据 标签:词源学,语言学,词汇,关系,跨语言,历史,文化,语义 数据概述:... -
诗歌与更多诗意数据集-2023-watrgoat
2025年6月1日 30 9 8
诗歌与更多诗意数据集-2023-watrgoat 数据来源:互联网公开数据 标签:诗歌,文学,自然语言生成,NLG,文本生成,语言学,英语诗歌 数据概述:... -
乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22
2025年6月1日 30 96 3
乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22 数据来源:互联网公开数据 标签:乌尔都语,OCR,文本识别,印刷文本,深度学习,机器学习,图像,文本,语言学,计算机视觉 数据概述: 本数据集是MMU-OCR-21数据集的扩展,旨在为印刷乌尔都语光学字符识别(OCR)任务提供一个公开可用的数据集。MMU-... -
全球姓名性别与国家分布数据集-erpel1
2025年5月31日 30 183 110
全球姓名性别与国家分布数据集-erpel1 数据来源:互联网公开数据 标签:姓名,性别,国家,人口统计,命名,文化研究,语言学,社会学 数据概述: 本数据集包含来自105个不同国家的500万个名字(First Name)和800万个姓氏(Last Name)。 每个名字或姓氏都标注了性别、国家以及在原始数据中的出现次数。... -
推特-趣味事实-推文内容分析数据集英文
2025年5月31日 30 82 62
推特-趣味事实-推文内容分析数据集英文 数据来源:互联网公开数据 标签:推特,社交媒体,趣味事实,推文,内容分析,语言学,信息传播,英语 数据概述: 本数据集收录了推特(Twitter)上所有包含短语“Fun... -
尼泊尔普拉吉特文字手写文本数据集-svarnimn
2025年5月31日 30 209 205
尼泊尔普拉吉特文字手写文本数据集-svarnimn 数据来源:互联网公开数据 标签:尼泊尔语,普拉吉特文字,手写文本,语言学,文化遗产,文本分析,历史文献,文字识别 数据概述:... -
语言校对工具词汇与规则数据集LanguageCorrectionToolVocabularyandRulesDataset-kimijima
2025年5月31日 30 82 1
语言校对工具词汇与规则数据集LanguageCorrectionToolVocabularyandRulesDataset-kimijima 数据来源:互联网公开数据 标签:语言学, 自然语言处理, 文本校对, 词汇, 语法规则, 语言模型, 文本分析, 数据集 数据概述:... -
语言校对工具词汇与规则数据集LanguageCorrectionToolVocabularyandRulesDataset-ivanblch
2025年5月31日 30 23 2
语言校对工具词汇与规则数据集LanguageCorrectionToolVocabularyandRulesDataset-ivanblch 数据来源:互联网公开数据 标签:语言校对, 语法检查, 词汇纠错, 自然语言处理, 文本分析, 语言学, 规则库, 机器学习 数据概述:... -
俄罗斯Telegram频道文章文本与主题分类数据集
2025年5月31日 30 187 1
俄罗斯Telegram频道文章文本与主题分类数据集 数据来源:互联网公开数据 标签:Telegram,社交媒体,俄罗斯,文本分析,主题分类,语言学,舆情分析,新闻,政治 数据概述: 本数据集包含了俄罗斯语Telegram频道帖子的标注文本。数据的主要组成部分是帖子的文本内容以及对应的主题分类标签。 数据用途概述:... -
老挝语-越南语机器翻译语料库越南语文本数据集-zuydang
2025年5月31日 30 27 8
老挝语-越南语机器翻译语料库越南语文本数据集-zuydang 数据来源:互联网公开数据 标签:机器翻译,语料库,老挝语,越南语,文本,语言学,自然语言处理,ALT 数据概述: 本数据集是从ALT(亚洲语言技术)项目中提取的老挝语-... -
法国说唱音乐歌词文本分析数据集-说唱歌手歌词-2024
2025年5月31日 30 56 50
法国说唱音乐歌词文本分析数据集-说唱歌手歌词-2024 数据来源:互联网公开数据 标签:法国说唱,歌词,文本分析,音乐,语言学,文化研究,RapGenius,嘻哈 数据概述:... -
孟加拉语文本分割数据集BengaliTextSplitDataset-tushartalukder
2025年5月30日 30 88 12
孟加拉语文本分割数据集BengaliTextSplitDataset-tushartalukder 数据来源:互联网公开数据 标签:文本分割, 孟加拉语, 自然语言处理, 语料库, 文本分析, 机器翻译, 数据标注, 语言学 数据概述: 该数据集包含孟加拉语文本,记录了用于训练和评估文本分割模型的数据。主要特征如下:... -
英语写作质量评估数据集EnglishWritingQualityAssessmentDataset-goldenlock
2025年5月29日 60 145 79
英语写作质量评估数据集EnglishWritingQualityAssessmentDataset-goldenlock 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 写作评估, 语言模型, 文本质量, 机器学习, 文本评分, 语言学 数据概述: 该数据集包含用于评估英语写作质量的相关数据,涵盖了文本评估的多个维度。主要特征如下:... -
柬埔寨新闻双语翻译数据集CambodiaNewsBilingualTranslationDataset-newmashedpotato
2025年5月30日 30 100 22
柬埔寨新闻双语翻译数据集CambodiaNewsBilingualTranslationDataset-newmashedpotato 数据来源:互联网公开数据 标签:机器翻译, 柬埔寨语, 英语, 双语语料, 新闻, 文本分析, 自然语言处理, 语言学 数据概述:... -
白俄罗斯语有声语音数据集BelarusianSpeechAudioDataset-siarheys
2025年5月30日 30 190 105
白俄罗斯语有声语音数据集BelarusianSpeechAudioDataset-siarheys 数据来源:互联网公开数据 标签:语音识别, 声学模型, 语音合成, 文本转录, 语言学, 白俄罗斯语, 语音数据, 数据集 数据概述: 该数据集包含来自互联网的白俄罗斯语语音数据,记录了白俄罗斯语的语音片段及其对应的文本转录。主要特征如下:... -
文本校对与语言纠错资源数据集TextProofreadingandLanguageCorrectionResources-fcbk95
2025年5月30日 30 7 0
文本校对与语言纠错资源数据集TextProofreadingandLanguageCorrectionResources-fcbk95 数据来源:互联网公开数据 标签:语言校对, 文本纠错, 自然语言处理, 多语言支持, 词汇校正, 语法检查, 数据集, 语言学 数据概述:... -
芬兰文本语料库2010-2020数据集-haaldrin
2025年5月30日 30 140 3
芬兰文本语料库2010-2020数据集-haaldrin 数据来源:互联网公开数据 标签:文本语料库,自然语言处理,数据集,芬兰语,学术研究,语言学,机器学习,信息检索 数据概述:该数据集包含来自芬兰的文本数据,记录了2010年至2020年期间的多种类型的芬兰语文本。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
俄语文本情感分析数据集RussianTextSentimentAnalysisDataset-eugenegolovanoov
2025年5月30日 30 9 5
俄语文本情感分析数据集RussianTextSentimentAnalysisDataset-eugenegolovanoov 数据来源:互联网公开数据 标签:情感分析, 俄语, 文本分类, 情感极性, 数据标注, 机器学习, 自然语言处理, 语言学 数据概述: 该数据集包含来自不同来源的俄语文本数据,旨在用于情感分析任务。主要特征如下:... -
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja
2025年5月30日 30 80 60
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja 数据来源:互联网公开数据 标签:维基百科,泰卢固语,文本分析,自然语言处理,数据集,语言学,信息检索,文本挖掘 数据概述: 该数据集包含来自泰卢固语维基百科的文章数据,记录了泰卢固语维基百科中所有文章的详细信息。主要特征如下:...