找到28个数据集

分类: 公开数据 标签: NLP模型

过滤结果
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 30 145 4

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • Amazon_MT_Based手机多语言评论数据

    2026年2月9日 30 88 26

    数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
    packageimg
  • FrameNet_嵌入模型软件及需求工程_语义框架嵌入技术

    2026年1月29日 30 60 33

    数据集概述 本数据集包含软件与需求工程领域的FrameNet语义框架嵌入数据,旨在识别该领域中FrameNet语义框架的语义相关性。数据通过基于上下文的方法获取,相关方法在ESEM 2018会议论文中有详细描述。 文件详解 文件名称:frame_embeddings_avg.zip 文件格式:ZIP...
    packageimg
  • Healthcare_Based_医疗文章专业非专业分类研究数据

    2026年1月28日 30 131 112

    数据集概述 本数据集为医疗文章专业级分类研究而收集,包含标注为“专业”和“非专业”的医疗文章数据,以及实验验证所需的源代码,可用于医疗文本分类相关研究。 文件详解 readme.md 文件格式:MD 字段映射介绍:包含研究背景说明、Python版本要求(Python...
    packageimg
  • YouTube_印度两大政党评论情感标注数据集2019

    2026年1月31日 30 53 11

    数据集概述 本数据集包含印度两大政党(印度国民大会党、印度人民党)YouTube视频下的用户评论及人工标注的情感标签,分为正面(标签1)和负面(标签0)两类。2019年3月捐赠,共含3950条评论,其中印度人民党数据集1952条、印度国民大会党数据集1998条,两类评论数量均等,用于政治舆情相关的二元分类任务。 文件详解 readme.docx...
    packageimg
  • Crowd_Based_用户需求在线反馈众包标注结果数据

    2026年1月30日 30 32 9

    数据集概述 本数据集为Figure Eight平台开展的众包标注实验结果,来源于REFSQ 2020发表的论文研究。核心内容是对在线反馈中的用户需求进行识别与分类的标注数据,可用于需求工程领域的模型训练与验证,仅包含一个压缩文件。 文件详解 文件名称:Crowd based annotation.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • ChatGPT_Based_HSK3词汇句子翻译准确性研究数据

    2026年1月28日 30 200 129

    数据集概述 本数据集围绕HSK3词汇句子的ChatGPT翻译准确性展开研究,包含一份文档文件,记录了相关研究的核心数据内容,可用于分析ChatGPT在HSK3词汇句子翻译任务中的表现。 文件详解 文件名称:Data CHATGPT dan KAMUS BESAR.docx 文件格式:DOCX...
    packageimg
  • 数据85_Business_Word_中印尼商务词汇多平台翻译数据

    2026年1月27日 30 199 146

    数据集概述 本数据集包含85条商务相关中文词汇的印尼语翻译结果,通过Google Translate、Baidu Translate和DeepL三个翻译工具生成,为商务场景下的中印尼词汇翻译提供多平台对比参考,共含1个文件。 文件详解 文件名称:85 Chinese-Indonesian Business Word Translations.xlsx...
    packageimg
  • Romanian_Grammar_Based罗马尼亚语法问题数据集

    2026年1月27日 30 108 49

    数据集概述 本数据集包含罗马尼亚语法相关的问题数据,由2个文件组成,涵盖说明文档和语法问题解释数据,未划分训练/测试、数据/标签或原始/处理数据集,可用于语言学习与语法研究场景。 文件详解 说明文档 文件名称:README.md 文件格式:.md 字段映射介绍:包含数据集的许可信息(MIT协议)等说明内容 数据文件...
    packageimg
  • Wikidata_TextRobustness_RDF转储_英文数据集

    2026年1月26日 30 32 17

    数据集概述 本数据集是通过wdumps工具生成的Wikidata英文RDF转储,包含4个文件,覆盖JSON、GZ压缩、NT格式。数据聚焦于文本鲁棒性研究场景,提供Wikidata实体、语句等相关数据的结构化记录,支持文本处理领域的鲁棒性分析与验证。 文件详解 info.json 文件格式:JSON...
    packageimg
  • Konsumen_HP_Review_Based_情感分析语料库数据

    2026年1月23日 30 43 36

    数据集概述 本数据集为HP消费者评论数据,用于情感分析语料库的词汇分析。包含两份压缩文件,未进行训练/测试、数据/标签或原始/处理数据的划分,无额外说明文档或内容预览,整体结构简单直接。 文件详解 文件名称:PBA_FP.zip 文件格式:ZIP 字段映射介绍:压缩文件,具体内容未提供预览,推测包含HP消费者评论相关的原始或结构化数据。...
    packageimg
  • FoldToken2_Single_Chain_Checkpoint_数据

    2026年1月21日 30 192 88

    数据集概述 本数据集包含FoldToken2的单链检查点,核心内容围绕自然语言处理中的token相关数据,通过压缩文件形式存储,未包含训练/测试、数据/标签或原始/处理的拆分结构。 文件详解 文件名称:FoldToken2.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • LanguageStructure_Based_TuLeD语言结构数据集预发布版0_9

    2026年1月14日 30 186 21

    数据集概述 本数据集为LanguageStructure/TuLeD的预发布版本(0.9版),核心内容围绕语言结构展开,包含一个压缩文件,未提供具体描述文档及内容预览,未区分训练/测试、数据/标签、原始/处理数据,适用于语言结构相关研究场景。 文件详解 文件名称:LanguageStructure/TuLeD-0.9.zip 文件格式:ZIP...
    packageimg
  • Software_requirements_Based_软件需求异常检测工具评估数据集

    2026年1月14日 30 140 77

    数据集概述 本数据集包含软件需求异常检测相关的评估文件与文本资源,涉及ChatGPT、RETA等四款检测工具的评估结果,以及原始需求文档(RD001-RD003.txt)、异常列表(Anomalies.txt)和输出示例(OutputExample.xlsx),共9个文件,用于软件需求工程中的异常检测研究与工具评估。 文件详解...
    packageimg
  • nikopartanen_Based_古芬兰文学语料随机抽取手动词形还原数据集_V1_0

    2026年1月13日 30 165 47

    数据集概述 本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代,1690、1720、1740、1770年等年代尚未完成词形还原,且存在部分年代语料缺失。数据集目前含1个压缩文件,旨在为古芬兰文学语言研究提供标注资源,后续计划补充完善缺失内容。 文件详解 文件名称:nikopartanen/old-literary-...
    packageimg
  • Biblical_Allusions_Test_Set_希伯来文本圣经典故识别基准测试数据

    2026年1月13日 30 184 75

    数据集概述 本数据集是用于评估希伯来语文本中圣经典故自动识别算法的基准测试集,包含标注答案和测试文本两类文件,可支持自然语言处理领域相关算法的性能验证,共包含两个文件。 文件详解 GoldAnswers.docx 文件格式:DOCX 字段映射介绍:包含希伯来语文本中圣经典故的标注答案,为算法识别结果提供参考基准。 TestText.docx...
    packageimg
  • Information_needs_Based_Web应用程序缺陷报告信息需求研究补充材料数据

    2026年1月12日 30 46 4

    数据集概述 本数据集是论文“Information needs in bug reports for web applications”的补充材料,包含一个压缩包data.zip,内有三个文件,分别记录了分析的项目元数据、研究的缺陷报告列表及缺陷报告评论中的额外信息,用于支持Web应用缺陷报告信息需求的相关研究。 文件详解 压缩包文件...
    packageimg
  • 黑人命也是命_BLM_推特语料库2010_2022

    2025年12月18日 30 124 54

    数据集概述 该数据集是围绕黑人命也是命(BLM)运动的大规模推特语料库,覆盖2010-2022年期间的相关推文,总量超五千万条。同时包含“所有生命都重要”和“蓝命也重要”的平行语料库,为研究社会运动相关的社交媒体讨论提供全面数据支持。 文件详解 Twitter blue_lives_matter...
    packageimg
  • API文档类型间信息对应数据集

    2025年12月16日 30 78 70

    数据集概述 本数据集为《API文档类型间信息对应》论文的在线附录,包含API文档信息分类的编码指南、标注的样本句子及不同语言主题的标注句子数据,用于支持API文档信息对应关系的研究与分析。 文件详解 文件名称: CodingGuide.pdf 文件格式: PDF 内容说明: 用于将句子分类为“API信息”或“辅助文本”的编码指南文档 文件名称:...
    packageimg
  • 手动标注的RNA相关科学文献实验数据集

    2025年12月12日 30 44 0

    数据集概述 本数据集包含从RNA相关科学文献中提取的一百个段落,所有内容均已根据LinkML模板完成实体与关系的人工标注,覆盖基因、蛋白质、RNA、化学物质、变异体(SNPs)、GO术语及疾病等关联信息,为RNA知识图谱研究提供基础数据。 文件详解 annotations.json:...
    packageimg