找到1,281个数据集

标签: 语料库

过滤结果
  • 自然语言处理数据集ANLP概览-ankitmakhija98

    2025年4月24日   

    自然语言处理数据集ANLP概览-ankitmakhija98 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,NLP,语料库,语言模型,人工智能 数据概述: 该数据集汇总了各种自然语言处理(NLP)数据集,涵盖了文本分类,情感分析,机器翻译,文本生成,问答系统等多种NLP任务。主要特征如下: 时间跨度:...
    packageimg
  • 豪萨语语料库数据集HausaCorporaDataset-isadutse

    2025年4月24日   

    豪萨语语料库数据集HausaCorporaDataset-isadutse 数据来源:互联网公开数据 标签:豪萨语,语料库,语言学,自然语言处理,机器翻译,数据集,学术研究,文化研究 数据概述:该数据集包含来自多种来源的豪萨语语料,记录了豪萨语的文本数据,适用于语言学研究,自然语言处理和机器翻译等任务。主要特征如下:...
    packageimg
  • 多领域罗马乌尔都语语料库数据集Multi-DomainRomanUrduCorpusDataset-marwakhanfastnulhr

    2025年4月24日   

    多领域罗马乌尔都语语料库数据集Multi-DomainRomanUrduCorpusDataset-marwakhanfastnulhr 数据来源:互联网公开数据 标签:自然语言处理,语料库,罗马乌尔都语,文本分析,多领域,文本分类,机器翻译,语言学 数据概述:...
    packageimg
  • 维基百科句子数据集WikiSentencesDataset-sgedela

    2025年4月24日   

    维基百科句子数据集WikiSentencesDataset-sgedela 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,句子,语言模型,文本分析,机器学习,语料库 数据概述:该数据集包含来自维基百科的句子数据,旨在为自然语言处理任务提供高质量的文本语料库。主要特征如下:...
    packageimg
  • 西班牙国会发言标点检测数据集

    2025年4月24日   

    西班牙国会发言标点检测数据集 数据来源:互联网公开数据 标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类 数据概述: 本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类: 1....
    packageimg
  • 阿塞拜疆语词汇库数据集-slyce20

    2025年4月24日   

    阿塞拜疆语词汇库数据集-slyce20 数据来源:互联网公开数据 标签:阿塞拜疆语,词汇,语言学,文本数据,语料库,自然语言处理,词典 数据概述: 本数据集包含8.2万个阿塞拜疆语单词,构成了一个基础的词汇库。数据集涵盖了阿塞拜疆语的常用词汇,为语言研究和相关应用提供了基础数据。 数据用途概述:...
    packageimg
  • 文学作品按体裁分类数据集-mehedihasan9021

    2025年4月23日   

    文学作品按体裁分类数据集-mehedihasan9021 数据来源:互联网公开数据 标签:文学,数据集,文本分析,自然语言处理,情感分析,分类,语料库,文本挖掘 数据概述: 该数据集包含按体裁分类的文学作品数据,旨在为文本分析和自然语言处理研究提供丰富的语料。主要特征如下: 时间跨度:数据涵盖不同时期和时代的文学作品。...
    packageimg
  • 印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3

    2025年4月23日   

    印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3 数据来源:互联网公开数据 标签:印尼语,语料库,文本数据,自然语言处理,语言学,词汇分析,文本挖掘,机器学习 数据概述: 该数据集收录了来自印尼语语料库 Nusantara (Korpus Nusantara)...
    packageimg
  • 汉字华语处理句对数据集-yuweiiizz

    2025年4月23日   

    汉字华语处理句对数据集-yuweiiizz 数据来源:互联网公开数据 标签:汉字,华语,自然语言处理,机器翻译,语义分析,方言学,语料库,文本挖掘 数据概述: 本数据集包含传统中文与现代中文或台式中文之间的配对句子,旨在促进自然语言处理任务,特别是机器翻译和语义分析。每个数据对由一条传统中文句子及其等效的现代中文或台式中文句子组成。 数据用途概述:...
    packageimg
  • 自然语言处理示例数据集NLPSampleData-fishercht

    2025年4月23日   

    自然语言处理示例数据集NLPSampleData-fishercht 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,文本挖掘,语言模型,情感分析,语料库 数据概述: 该数据集包含多种用于自然语言处理任务的示例数据,旨在帮助研究人员和开发者进行算法测试和模型训练。主要特征如下:...
    packageimg
  • 维基中立性语料库数据集

    2025年4月23日   

    维基中立性语料库数据集 数据来源:互联网公开数据 标签:中立性,文本分析,自然语言处理,语料库,偏见检测,文本修改,数据科学 数据概述:...
    packageimg
  • 命名实体识别数据集-土耳其语-语料库NER数据集-土耳其语-语料库-niubi666

    2025年4月23日   

    命名实体识别数据集-土耳其语-语料库NER数据集-土耳其语-语料库-niubi666 数据来源:互联网公开数据 标签:命名实体识别,数据集,自然语言处理,机器学习,文本分析,土耳其语,语料库,人工智能 数据概述:该数据集包含土耳其语的命名实体识别数据,记录了土耳其语文本中的关键实体,如人名,组织名,地名等。主要特征如下:...
    packageimg
  • 诺维雅语料库数据集NoviaKorpusDataset-noviafadina

    2025年4月23日   

    诺维雅语料库数据集NoviaKorpusDataset-noviafadina 数据来源:互联网公开数据 标签:语料库,语言学,文本分析,自然语言处理,芬兰语,数据集,文本挖掘,词汇研究 数据概述: 该数据集包含来自诺维雅应用科学大学(Novia University of Applied...
    packageimg
  • 中文新闻语料库-2011至最新-ceshine

    2025年4月23日   

    中文新闻语料库-2011至最新-ceshine 数据来源:互联网公开数据 标签:中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体 数据概述:...
    packageimg
  • 美国总统演讲数据集PresidentSpeechesDataset-teballo5655kgomo

    2025年4月23日   

    美国总统演讲数据集PresidentSpeechesDataset-teballo5655kgomo 数据来源:互联网公开数据 标签:政治,演讲,历史,文本分析,自然语言处理,语料库,美国,公开演讲 数据概述: 该数据集包含了来自美国总统的演讲内容,记录了历任美国总统在不同场合发表的演讲全文。主要特征如下:...
    packageimg
  • 办公场景对话脚本数据集TheOfficeScriptsDataset-anabricio98

    2025年4月23日   

    办公场景对话脚本数据集TheOfficeScriptsDataset-anabricio98 数据来源:互联网公开数据 标签:办公场景,对话脚本,数据集,自然语言处理,文本分析,情感分析,机器学习,语料库 数据概述: 该数据集包含来自美剧《办公室》(The Office)的对话脚本数据,记录了剧中角色在工作场景中的对话内容。主要特征如下:...
    packageimg
  • 生物医学文本否定标注语料库-新冠药物治疗相关研究-ma7555

    2025年4月23日   

    生物医学文本否定标注语料库-新冠药物治疗相关研究-ma7555 数据来源:互联网公开数据 标签:生物医学,文本挖掘,自然语言处理,否定检测,语料库,新冠,药物治疗,语言学 数据概述:...
    packageimg
  • 自然语言处理项目原始数据集-emilygreen8

    2025年4月23日   

    自然语言处理项目原始数据集-emilygreen8 数据来源:互联网公开数据 标签:自然语言处理,NLP,数据集,文本数据,语料库,数据预处理,机器学习,文本分析 数据概述: 该数据集包含用于自然语言处理(NLP)项目的原始文本数据,涵盖多种文本来源和语言。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于各个子数据集的发布时间。...
    packageimg
  • 越南语词汇与语料数据集Viettat-ThanhnguVietnameseVocabularyandCorpusDataset-duykhnhavx

    2025年4月22日   

    越南语词汇与语料数据集Viettat-ThanhnguVietnameseVocabularyandCorpusDataset-duykhnhavx 数据来源:互联网公开数据 标签:语言学研究,越南语,词汇分析,语料库,自然语言处理,文本挖掘,语言技术,数据集 数据概述:...
    packageimg
  • 圣经文本数据集-vishnuprksh

    2025年4月22日   

    圣经文本数据集-vishnuprksh 数据来源:互联网公开数据 标签:圣经,文本分析,自然语言处理,数据集,宗教研究,语言学,文本挖掘,语料库 数据概述:该数据集包含来自圣经的文本数据,涵盖了旧约和新约的多个版本和翻译。主要特征如下: 时间跨度:数据记录的时间跨度涵盖了圣经创作的整个时期,从公元前15世纪到公元1世纪。...
    packageimg