找到1,279个数据集

格式: ZIP 标签: 语料库

过滤结果
  • 语音记录数据集

    2025年6月4日 30 143 123

    语音记录数据集 数据来源:互联网公开数据 标签:语音记录,自我发展,软技能,时间序列,语料库,声音分析,区域分布 数据概述:...
    packageimg
  • 自然语言处理多领域对话数据集UltraChat-200K-thedevastator

    2025年6月4日 30 84 0

    自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:...
    packageimg
  • 阿拉伯语拼写错误平行语料库数据集

    2025年6月4日 30 189 142

    阿拉伯语拼写错误平行语料库数据集 数据来源:互联网公开数据 标签:阿拉伯语,拼写错误,语料库,语言研究,拼写检查,纠错系统 数据概述:...
    packageimg
  • 青空文庫日文文学语料库数据集

    2025年6月4日 30 33 26

    青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。...
    packageimg
  • STEM领域维基百科语料库数据集

    2025年6月4日 30 159 17

    STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...
    packageimg
  • TIMIT语音识别和发音学研究语料库数据集

    2025年6月4日 30 144 58

    TIMIT语音识别和发音学研究语料库数据集 数据来源:互联网公开数据 标签:语料库,语音识别,发音标注,语音处理,自然语言处理,美国英语,发音学研究 数据概述:...
    packageimg
  • 日语假名注释语料库-书刊标题数据集1963-2021

    2025年6月4日 30 61 45

    日语假名注释语料库-书刊标题数据集1963-2021 数据来源:互联网公开数据 标签:日语,假名,注释,语料库,书刊标题,NDL Lab,CC-BY-4.0,预处理 数据概述: 本数据集是NDL Lab发布的Shosi数据集的后处理版本,拥有CC-...
    packageimg
  • SFU观点与评论语料库

    2025年6月1日 30 9 8

    SFU观点与评论语料库 数据来源:互联网公开数据 标签:观点分析,在线评论,建设性评论,毒性评论,自然语言处理,意见挖掘,语料库,社交媒体分析 数据概述:...
    packageimg
  • 西班牙语文学作品数据集

    2025年6月1日 30 81 79

    西班牙语文学作品数据集 数据来源:互联网公开数据 标签:西班牙语文学,文本数据,书籍,短篇故事,语料库,语言学习,文学分析 数据概述: 本数据集包含9000多本西班牙语的书籍、短篇故事和文本,涵盖了丰富多样的文学作品。数据集旨在为西班牙语学习者、研究者和开发者提供一个高质量的文本资源,支持语言学习、文学研究和自然语言处理任务。 数据用途概述:...
    packageimg
  • 古腾堡诗歌项目诗歌文本数据集-terminate9298

    2025年6月1日 30 63 36

    古腾堡诗歌项目诗歌文本数据集-terminate9298 数据来源:互联网公开数据 标签:诗歌,文学,文本,古腾堡项目,语料库,自然语言处理,文本分析,诗歌创作,情感分析 数据概述: 本数据集收录了来自古腾堡项目(Gutenberg Project)的诗歌文本,包含2703086行句子。数据集由Allison...
    packageimg
  • 梵文关系数据集

    2025年6月1日 30 87 44

    梵文关系数据集 数据来源:互联网公开数据 标签:梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析 数据概述: 本数据集基于CoNLL-U格式文件构建,将原始的结构化文本数据转换为关系型数据格式,并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件:words.feather 和...
    packageimg
  • Coursera数据科学专项课程数据集-文本内容分析-英语语料库

    2025年6月1日 30 190 145

    Coursera数据科学专项课程数据集-文本内容分析-英语语料库 数据来源:互联网公开数据 标签:自然语言处理,文本分析,机器学习,语料库,Coursera,博客,新闻,推特,英语,数据科学 数据概述: 本数据集是Coursera数据科学专项课程的Capstone项目所使用的数据集,其语料库来源于HC...
    packageimg
  • 青空文库文本语料库

    2025年6月1日 30 61 3

    青空文库文本语料库 数据来源:互联网公开数据 标签:文学作品,日本文学,语料库,文本分析,自然语言处理,文学研究 数据概述: 本数据集来源于日本著名的数字图书馆“青空文库”(Aozora...
    packageimg
  • 印度语短文本摘要语料库数据集

    2025年5月31日 30 176 2

    印度语短文本摘要语料库数据集 数据来源:互联网公开数据 标签:印度语,文本摘要,新闻文章,自然语言处理,机器学习,语料库 数据概述: 本数据集包含约330,000篇来自印度新闻网站的文章及其标题,是首个用于基准测试的印度语文本摘要数据集。数据集保留了原文中的标点符号、数字等信息,为研究和开发印度语文本摘要技术提供了丰富的数据基础。 数据用途概述:...
    packageimg
  • 印度最高法院判决书英汉平行语料库数据集-varuthakari

    2025年5月31日 30 111 8

    印度最高法院判决书英汉平行语料库数据集-varuthakari 数据来源:互联网公开数据 标签:最高法院,判决书,印度,法律,语料库,翻译,英汉,司法,印度Kanoon, IndicTrans2 数据概述: 本数据集是一个英汉平行语料库,内容源自印度最高法院的判决书。原始判决书从Indian...
    packageimg
  • 孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan

    2025年5月31日 30 91 1

    孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan 数据来源:互联网公开数据 标签:孟加拉语,新闻,文本,自然语言处理,NLP,文本分析,孟加拉国,BD-Pratidin,语料库 数据概述: 本数据集包含了从2017年12月13日至2020年9月9日期间,孟加拉国日报(BD-...
    packageimg
  • 问答知识库构建与内容检索数据集QuestionAnsweringKnowledgeBaseConstructionandContentRetrievalD...

    2025年5月31日 30 73 6

    问答知识库构建与内容检索数据集QuestionAnsweringKnowledgeBaseConstructionandContentRetrievalDataset-ouaillaamiri02 数据来源:互联网公开数据 标签:问答系统, 知识库构建, 内容检索, 自然语言处理, 文本分析, 信息抽取, 机器学习, 语料库 数据概述:...
    packageimg
  • 语法规则解析与文本片段生成数据集GrammarRuleParsingandTextFragmentGeneration-kiiroi

    2025年5月31日 30 152 35

    语法规则解析与文本片段生成数据集GrammarRuleParsingandTextFragmentGeneration-kiiroi 数据来源:互联网公开数据 标签:自然语言处理, 语法分析, 文本生成, 规则提取, 语料库, 机器学习, 文本片段, 语言模型 数据概述:...
    packageimg
  • 写作评估与文本生成数据集WritingEvaluationandTextGenerationDataset-openmihirpatel

    2025年5月31日 30 46 6

    写作评估与文本生成数据集WritingEvaluationandTextGenerationDataset-openmihirpatel 数据来源:互联网公开数据 标签:文本生成, 写作评估, 论文写作, 情感分析, 自然语言处理, 机器学习, 文本分类, 语料库 数据概述:...
    packageimg
  • 电影评论情感分析数据集MovieReviewSentimentAnalysis-programophile

    2025年5月31日 30 8 2

    电影评论情感分析数据集MovieReviewSentimentAnalysis-programophile 数据来源:互联网公开数据 标签:情感分析, 自然语言处理, 文本分类, 电影评论, 情感极性, 机器学习, 语料库, 深度学习 数据概述:...
    packageimg