找到1,530个数据集

标签: 语料库

过滤结果
  • 招投标文本命名实体识别数据集

    2026年3月10日 30 97 71

    招投标文本命名实体识别数据集_Tender_Text_Named_Entity_Recognition_Dataset 数据来源:互联网公开数据 标签:命名实体识别, 文本标注, 自然语言处理, 招投标, 实体识别, 文本分析, 机器学习, 语料库 数据概述: 该数据集包含来自招投标文档的文本数据,记录了经过标注的命名实体。主要特征如下:...
    packageimg
  • 情感分析词向量数据集

    2026年3月7日 30 26 18

    情感分析词向量数据集_Sentiment_Analysis_Word_Embedding_Dataset 数据来源:互联网公开数据 标签:情感分析, 词向量, 文本分析, 自然语言处理, 情感分类, 机器学习, 语料库, 深度学习 数据概述: 该数据集包含用于情感分析任务的词向量数据。主要特征如下: 时间跨度:数据未标明具体时间,通常为静态词向量表示。...
    packageimg
  • 自然语言生成文本分类数据集

    2026年3月7日 30 5 1

    自然语言生成文本分类数据集_Natural_Language_Generation_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 自然语言生成, GPT-2, 机器学习, 深度学习, 文本标注, 语料库, 数据集 数据概述:...
    packageimg
  • 英语_马拉地语翻译数据集

    2026年3月5日 30 166 154

    英语_马拉地语翻译数据集_English_to_Marathi_Translation_Dataset 数据来源:互联网公开数据 标签:机器翻译, 语言学, 文本数据, 翻译模型, 自然语言处理, 语料库, 英语, 马拉地语 数据概述: 该数据集包含英语到马拉地语的翻译对,记录了英语句子及其对应的马拉地语翻译。主要特征如下:...
    packageimg
  • 阅读理解多项选择题数据集

    2026年3月3日 30 100 46

    阅读理解多项选择题数据集_Reading_Comprehension_Multiple_Choice_Questions_Dataset 数据来源:互联网公开数据 标签:阅读理解, 文本理解, 多项选择, 机器阅读, 自然语言处理, 问答系统, 文本分类, 语料库 数据概述:...
    packageimg
  • 埃及新闻文章摘要生成数据集

    2026年3月3日 30 7 2

    埃及新闻文章摘要生成数据集_Egyptian_News_Article_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 新闻文章, 自然语言处理, 机器翻译, 深度学习, 文本生成, 语料库, 阿拉伯语 数据概述:...
    packageimg
  • 法律问答语料库数据集

    2026年3月3日 30 208 13

    法律问答语料库数据集_Legal_Question_Answering_Corpus 数据来源:互联网公开数据 标签:法律问答, 自然语言处理, 文本理解, 问答系统, 语料库, 文本检索, 机器阅读, 越南语 数据概述: 该数据集包含来自互联网的法律问答语料,记录了用户提出的问题、相关的法律文本上下文,以及问题标识符。主要特征如下:...
    packageimg
  • 文本序列分类数据集

    2026年3月1日 30 9 7

    文本序列分类数据集_Text_Sequence_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 序列标注, 深度学习, BERT模型, 语料库, 机器学习, 自然语言处理, 预训练模型 数据概述: 该数据集包含从公开渠道获取的文本序列数据,主要用于文本分类和序列标注任务。主要特征如下:...
    packageimg
  • 多领域越南语文本分类数据集

    2026年2月28日 30 104 1

    多领域越南语文本分类数据集_Vietnamese_Multi_domain_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 越南语, 自然语言处理, 多领域, 意图识别, 机器学习, 语料库, 数据标注 数据概述: 该数据集包含来自多个领域的越南语文本数据,旨在用于多领域文本分类任务。主要特征如下:...
    packageimg
  • 阿拉伯新闻文本情感分析数据集

    2026年2月22日 30 91 40

    阿拉伯新闻文本情感分析数据集_Arabic_News_Text_Sentiment_Analysis 数据来源:互联网公开数据 标签:阿拉伯语, 情感分析, 文本分类, 自然语言处理, 新闻文本, 情感极性, 机器翻译, 语料库 数据概述: 该数据集包含来自阿拉伯新闻网站的文本数据,记录了新闻文章的内容及其对应的情感极性标签。主要特征如下:...
    packageimg
  • 数据集_100个中印尼商务词汇条目

    2026年2月15日 30 163 20

    数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
    packageimg
  • ACA_多语言核心论元标注数据库

    2026年2月12日 30 96 88

    数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
    packageimg
  • Amazon_MT_Based手机多语言评论数据

    2026年2月9日 30 72 43

    数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
    packageimg
  • FOR2828_TP2_Based_英语文学诗篇集分析结果数据

    2026年2月8日 30 104 7

    数据集概述 本数据集为FOR 2828研究单元“文本中的去神圣化与神圣化”框架下,TP2项目“英语文学中灵感、授权与神圣化的构型”对诗篇集语料库的分析结果,包含分析结果表格与说明文档,共2个文件。 文件详解 readme.txt 文件格式:TXT 字段映射介绍:说明数据集背景,包括所属研究单元、项目名称及分析内容概述。 TABLE Results P2...
    packageimg
  • BMSatire_Based语料库语言学分析数据_附文档

    2026年1月30日 30 111 20

    数据集概述 本数据集包含BMSatire Descriptions语料库的分析数据及相关文档,属于英国学术院资助项目“Curatorial Voice: legacy descriptions of art objects and their contemporary uses”的成果。语料库源自M. Dorothy...
    packageimg
  • 文献语料库软件项目管理教学方法系统性文献综述

    2026年2月1日 30 155 5

    数据集概述 本数据集是关于软件项目管理教学方法的系统文献综述语料库,包含1个文档文件,记录了综述中纳入的相关研究文献的参考文献信息,为软件工程教育领域的研究提供结构化的文献参考资料。 文件详解 文件名称:Referências dos Artigos da RSL.docx 文件格式:DOCX...
    packageimg
  • 数字化语言学词形变化标注框架研究数据_2020

    2026年2月1日 30 196 2

    数据集概述 本数据集是研究“Developing an annotation framework for word formation processes in comparative linguistics”的配套数据与代码,包含一个压缩文件,用于支持比较语言学领域词形变化过程标注框架的开发与应用,为相关语言学研究提供结构化的数据资源。 文件详解...
    packageimg
  • ROCOPOT_Dataset_罗马陶器图像与元数据

    2026年1月31日 30 47 4

    数据集概述 本数据集包含来自32个语料库的5000余张罗马陶器轮廓黑白图像,以及一份包含元数据的.xls文件。数据集以压缩包形式提供,未划分训练/测试集或数据/标签集,无原始/处理数据拆分,主要用于罗马陶器的考古研究与图像分析。 文件详解 文件名称:ROCOPOTv1.zip 文件格式:ZIP...
    packageimg
  • Bangla_Based_孟加拉语信息检索测试集数据

    2026年1月31日 30 26 19

    数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
    packageimg