找到24个数据集

标签: NLP模型

过滤结果
  • Konsumen_HP_Review_Based_情感分析语料库数据

    2026年1月23日 30 50 34

    数据集概述 本数据集为HP消费者评论数据,用于情感分析语料库的词汇分析。包含两份压缩文件,未进行训练/测试、数据/标签或原始/处理数据的划分,无额外说明文档或内容预览,整体结构简单直接。 文件详解 文件名称:PBA_FP.zip 文件格式:ZIP 字段映射介绍:压缩文件,具体内容未提供预览,推测包含HP消费者评论相关的原始或结构化数据。...
    packageimg
  • FoldToken2_Single_Chain_Checkpoint_数据

    2026年1月21日 30 175 34

    数据集概述 本数据集包含FoldToken2的单链检查点,核心内容围绕自然语言处理中的token相关数据,通过压缩文件形式存储,未包含训练/测试、数据/标签或原始/处理的拆分结构。 文件详解 文件名称:FoldToken2.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • LanguageStructure_Based_TuLeD语言结构数据集预发布版0_9

    2026年1月14日 30 54 31

    数据集概述 本数据集为LanguageStructure/TuLeD的预发布版本(0.9版),核心内容围绕语言结构展开,包含一个压缩文件,未提供具体描述文档及内容预览,未区分训练/测试、数据/标签、原始/处理数据,适用于语言结构相关研究场景。 文件详解 文件名称:LanguageStructure/TuLeD-0.9.zip 文件格式:ZIP...
    packageimg
  • Software_requirements_Based_软件需求异常检测工具评估数据集

    2026年1月14日 30 158 56

    数据集概述 本数据集包含软件需求异常检测相关的评估文件与文本资源,涉及ChatGPT、RETA等四款检测工具的评估结果,以及原始需求文档(RD001-RD003.txt)、异常列表(Anomalies.txt)和输出示例(OutputExample.xlsx),共9个文件,用于软件需求工程中的异常检测研究与工具评估。 文件详解...
    packageimg
  • nikopartanen_Based_古芬兰文学语料随机抽取手动词形还原数据集_V1_0

    2026年1月13日 30 82 67

    数据集概述 本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代,1690、1720、1740、1770年等年代尚未完成词形还原,且存在部分年代语料缺失。数据集目前含1个压缩文件,旨在为古芬兰文学语言研究提供标注资源,后续计划补充完善缺失内容。 文件详解 文件名称:nikopartanen/old-literary-...
    packageimg
  • Biblical_Allusions_Test_Set_希伯来文本圣经典故识别基准测试数据

    2026年1月13日 30 18 3

    数据集概述 本数据集是用于评估希伯来语文本中圣经典故自动识别算法的基准测试集,包含标注答案和测试文本两类文件,可支持自然语言处理领域相关算法的性能验证,共包含两个文件。 文件详解 GoldAnswers.docx 文件格式:DOCX 字段映射介绍:包含希伯来语文本中圣经典故的标注答案,为算法识别结果提供参考基准。 TestText.docx...
    packageimg
  • Information_needs_Based_Web应用程序缺陷报告信息需求研究补充材料数据

    2026年1月12日 30 145 125

    数据集概述 本数据集是论文“Information needs in bug reports for web applications”的补充材料,包含一个压缩包data.zip,内有三个文件,分别记录了分析的项目元数据、研究的缺陷报告列表及缺陷报告评论中的额外信息,用于支持Web应用缺陷报告信息需求的相关研究。 文件详解 压缩包文件...
    packageimg
  • 黑人命也是命_BLM_推特语料库2010_2022

    2025年12月18日 30 192 185

    数据集概述 该数据集是围绕黑人命也是命(BLM)运动的大规模推特语料库,覆盖2010-2022年期间的相关推文,总量超五千万条。同时包含“所有生命都重要”和“蓝命也重要”的平行语料库,为研究社会运动相关的社交媒体讨论提供全面数据支持。 文件详解 Twitter blue_lives_matter...
    packageimg
  • API文档类型间信息对应数据集

    2025年12月16日 30 183 161

    数据集概述 本数据集为《API文档类型间信息对应》论文的在线附录,包含API文档信息分类的编码指南、标注的样本句子及不同语言主题的标注句子数据,用于支持API文档信息对应关系的研究与分析。 文件详解 文件名称: CodingGuide.pdf 文件格式: PDF 内容说明: 用于将句子分类为“API信息”或“辅助文本”的编码指南文档 文件名称:...
    packageimg
  • 手动标注的RNA相关科学文献实验数据集

    2025年12月12日 30 145 45

    数据集概述 本数据集包含从RNA相关科学文献中提取的一百个段落,所有内容均已根据LinkML模板完成实体与关系的人工标注,覆盖基因、蛋白质、RNA、化学物质、变异体(SNPs)、GO术语及疾病等关联信息,为RNA知识图谱研究提供基础数据。 文件详解 annotations.json:...
    packageimg
  • 维基数量与维基测量数据集

    2025年12月11日 30 43 6

    数据集概述 该数据集包含Wiki-Quantities和Wiki-Measurements两个子数据集,分别用于支持数量识别与测量上下文提取任务。数据从维基百科文章和维基数据事实启发式生成,部分样本添加S2ORC数据集引用以增强模型鲁棒性,为测量提取系统的开发与评估提供支持。 文件详解 核心压缩文件: Wiki-Quantities.zip:...
    packageimg
  • PyTextQltEval_自动化软件文档质量评估库数据集

    2025年12月9日 30 4 2

    数据集概述 本数据集包含一个自动化软件文档质量评估库相关的压缩文件,聚焦于软件文档质量评估领域,为研究或应用文档质量自动化评估工具提供数据支持。 文件详解 文件名称: doc_quality.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内包含与PyTextQltEval自动化软件文档质量评估库相关的文件,具体内容需解压后查看...
    packageimg
  • 学位论文致谢支持与情感人工标注数据集

    2025年12月8日 30 206 166

    数据集概述 该数据集是学位论文致谢部分的人工标注数据,围绕致谢内容中的支持关系与情感倾向展开标注。包含支持类型标注、情感极性标注及相关元数据,辅以编码手册说明标注规则,为自然语言处理领域中致谢文本的情感分析和支持关系识别研究提供基础数据。 文件详解 数据文件: metadata.csv: CSV格式,包含数据的元信息,如致谢文本的基本标识等字段...
    packageimg
  • 图皮语词汇数据库

    2025年12月8日 30 11 0

    数据集概述 该数据集为图皮语词汇数据库(TuLeD),包含图皮语系语言的词汇资源,以压缩文件形式存储,未划分训练测试、数据标签或原始处理数据,为语言研究提供基础词汇数据支持。 文件详解 文件名称:tupian-language-resources/tuled-v0.12.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • BIOMAT_AnatNER生物材料解剖结构命名实体识别训练与验证集

    2025年12月7日 30 2 0

    数据集概述 该数据集是BIOMATDB项目下的BIOMAT-AnatNER语料库训练(750篇文档)与验证(100篇文档)集,聚焦生物材料相关文献中解剖结构(组织、器官、身体部位)的命名实体识别标注,支持相关NER模型开发。 文件详解 文件名称:BIOMAT-AnatNER_Train_Set.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 德国法律语言停用词数据集_SW_DE_RS

    2025年12月7日 30 107 17

    数据集概述 该数据集是针对德国法律语言的专用停用词列表,基于1998-2020年德国联邦宪法法院等机构判决中的高频词开发,补充通用语言停用词列表,适用于法律文本的自然语言处理分析,需结合使用说明文档(Codebook)。 文件详解 文件名称:SW-DE-RS_v1-0-0_Datensatz.csv 文件格式:CSV...
    packageimg
  • 西班牙语COVID_19推文职业检测黄金标准标注数据集2021

    2025年12月6日 30 201 120

    数据集概述 本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文,按训练集、验证集、测试集以六十比二十比二十比例划分,涵盖职业分类与命名实体识别两个子任务的标注数据,同时提供多格式文件及工具脚本,支持自然语言处理模型训练与评估。 文件详解 数据集为压缩包格式,包含两个子任务相关文件,具体说明如下: - subtask-1(职业分类子任务):...
    packageimg
  • 系统综述自动化文献筛选评估数据集

    2025年12月6日 30 93 9

    数据集概述 本数据集为系统综述自动化文献筛选的评估数据,包含扩展的文献筛选数据集、实验结果评估文件、实验复现脚本及预印本论文,用于对比自动化方法与人工标题摘要及全文筛选决策的效果。 文件详解 扩展文献数据集(CSV格式):...
    packageimg
  • 谷歌竞赛自然语言处理模型特征数据集-2021

    2025年6月1日 30 39 11

    谷歌竞赛自然语言处理模型特征数据集-2021 数据来源:互联网公开数据 标签:谷歌竞赛,NLP,自然语言处理,特征向量,模型配置,数据集,Parquet,CSV 数据概述: 本数据集包含用于谷歌竞赛的自然语言处理(NLP)模型的各种特征和配置信息。数据集组织成多个文件夹,每个文件夹代表不同的NLP模型配置和特征。具体包括:...
    packageimg
  • HuggingFaceTransformers模型库数据集HuggingFaceTransformersModelHubDataset-kxhush

    2025年5月30日 30 103 3

    HuggingFaceTransformers模型库数据集HuggingFaceTransformersModelHubDataset-kxhush 数据来源:互联网公开数据 标签:自然语言处理,机器学习,数据集,Transformer,模型,文本分析,预训练模型,Hugging Face 数据概述:该数据集包含了Hugging Face...
    packageimg