-
Tarjoman波斯语文本数据集
Tarjoman波斯语文本数据集 数据来源:互联网公开数据 标签:波斯语,文本爬取,新闻文章,语料库,文本分析,自然语言处理,机器学习 数据概述:... -
-
泰卢固语新闻文本数据集-语言模型训练-合并数据集
泰卢固语新闻文本数据集-语言模型训练-合并数据集 数据来源:互联网公开数据 标签:泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据 数据概述: 本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成,整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容,涵盖了各种主题和风格。 数据用途概述:... -
英语-伊博语圣经数据集
英语-伊博语圣经数据集 数据来源:互联网公开数据 标签:机器翻译,伊博语,圣经文本,英语,语言数据,语料库,宗教文本 数据概述: 本数据集为英语和伊博语的圣经文本对齐数据,主要用于英语至伊博语的机器翻译研究。数据来源于Jehovah... -
古典藏文-英文翻译数据集
古典藏文-英文翻译数据集 数据来源:互联网公开数据 标签:古典藏文,英文翻译,机器翻译,语料库,语言学研究,MT模型训练 数据概述: 本数据集包含古典藏文句子及其对应的英文翻译,每对数据由古典藏文句子和其英文翻译组成。数据集中的文本来源于Lotsawa... -
政治思想作品语料库数据集1963-2021
政治思想作品语料库数据集1963-2021 数据来源:互联网公开数据 标签:政治思想,语料库,历史,现代,文本分析,自然语言处理,词频分析,推荐系统 数据概述:... -
IWSLT2017英语-中文翻译数据集
IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging... -
-
宾夕法尼亚大学语料库初步版本数据集
宾夕法尼亚大学语料库初步版本数据集 数据来源:互联网公开数据 标签:宾夕法尼亚大学,语料库,自然语言处理,文本分析,语言学 数据概述: 本数据集是宾夕法尼亚大学语料库的初步版本,涵盖了一系列标注的英语文本,适用于自然语言处理和语言学研究。该语料库包含了精心标注的句子结构、词性、依存关系等信息,为研究人员提供了丰富的语言学数据资源。 数据用途概述:... -
德古拉与傲慢与偏见文本分类数据集
德古拉与傲慢与偏见文本分类数据集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,NLP,文学作品,情感分析,语料库,句子级别 数据概述: 本数据集包含《德古拉》(Dracula)和《傲慢与偏见》(Pride and... -
孟加拉语同义句识别基准语料库数据集
孟加拉语同义句识别基准语料库数据集 数据来源:互联网公开数据 标签:同义句检测,孟加拉语,语料库,自然语言处理,文本分析,机器学习,语言模型评估 数据概述: 本数据集是一个用于孟加拉语同义句识别的基准语料库,收录了8,787对人工标注的句子对,这些句子对来源于23家报纸头版在四个类别中的内容。该数据集旨在为孟加拉语同义句检测的研究提供全面的基准。... -
梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集
梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集 数据来源:互联网公开数据 标签:梵语, 史诗, 翻译, 语言学, 文本, 诗歌, 语料库, 机器学习, 文本生成 数据概述: 本数据集是一个梵语-英语翻译语料库,包含了从M. N.... -
自然故事语料库数据集1963-2021
自然故事语料库数据集1963-2021 数据来源:互联网公开数据 标签:自然语言处理,阅读时间,语料库,低频语法构型,心理学,语言学 数据概述:... -
当代美国英语语料库数据集
当代美国英语语料库数据集 数据来源:互联网公开数据 标签:美国英语,语料库,语言学,文本分析,文学,新闻,学术,社交媒体,电影字幕,电视字幕 数据概述:... -
阿拉伯语新闻文本分类语料库
阿拉伯语新闻文本分类语料库 数据来源:互联网公开数据 标签:阿拉伯语,新闻,文本分类,自然语言处理,机器学习,语料库 数据概述: 本数据集包含以阿拉伯语撰写的新闻文本,涵盖了9个不同的新闻类别,以CSV格式存储。数据集旨在为阿拉伯语新闻文本的分类任务提供支持,包含数万条新闻数据,每条数据均标注了具体的类别信息。 数据用途概述:... -
英语学习资源网站文本语料库数据集-OneStopEnglish-2024
英语学习资源网站文本语料库数据集-OneStopEnglish-2024 数据来源:互联网公开数据 标签:英语学习,文本语料库,语言学习,英语教学,文本分析,语料库,词汇,语法,阅读理解 数据概述: 本数据集包含OneStopEnglish网站提供的文本语料库,以CSV格式存储。语料库中的文本内容涵盖了小学、初中、高中不同英语水平的材料。... -
旁遮普语沙木基语料库词频统计数据集
旁遮普语沙木基语料库词频统计数据集 数据来源:互联网公开数据 标签:旁遮普语,沙木基语,语言学,词频统计,文本分析,自然语言处理,语料库 数据概述: 本数据集基于从互联网收集的旁遮普语沙木基语料库构建而成,包含单字词(unigram)和双字词(bigram)的频率统计信息。 数据文件包括: unigram-p.csv:包含50,000个单字词及其词频。... -
CounselChat心理咨询对话数据集
CounselChat心理咨询对话数据集 数据来源:互联网公开数据 标签:心理咨询,对话,NLP,自然语言处理,情感分析,文本数据,CounselChat,语料库 数据概述: 本数据集收录了从 CounselChat 网站抓取的心理咨询对话数据。 CounselChat... -
韩国语词汇频率数据集
韩国语词汇频率数据集 数据来源:互联网公开数据 标签:词汇频率,韩国语,自然语言处理,NLP,词频统计,语言学,语料库,词根分析,借词研究 数据概述 本数据集由韩国国立国语研究院(National Institute of the Korean... -
罗马尼亚语维基源文学语料库1963-2021
罗马尼亚语维基源文学语料库1963-2021 数据来源:互联网公开数据 标签:罗马尼亚文学,维基源,语料库,自然语言处理,机器学习,古典文学,文本分析 数据概述:...