找到50个数据集

标签: NLP任务

过滤结果
  • DRIP_Based_软件需求文档段落需求提取数据集

    2026年1月31日 30 69 39

    数据集概述 本数据集为DRIP项目相关的软件需求文档数据集,包含近五年RE、ICSE、REFSQ、REJ会议及期刊的软件需求文档数据,共4个归档文件,用于从软件需求文档段落中提取单个需求的任务。 文件详解 训练数据文件 文件名称:trainData.gz 文件格式:.gz 字段映射介绍:未提供具体字段信息 标注数据文件 文件名称:annotation...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日 30 11 2

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • CEEC_Based_历史英语拼写规范化人工标注测试集数据

    2026年1月30日 30 170 16

    数据集概述 本数据集为CEEC语料库历史英语规范化测试集,包含人工生成的三组历史-现代拼写对列表:混合世纪列表、15世纪列表和18世纪列表,每组各100对。历史形式均源自CEEC语料库,总计包含一个文件。 文件详解 文件名称:test_set_of_normalizations.xlsx 文件格式:XLSX...
    packageimg
  • NCOMMS_25_07426_Based_文档数据_无时间

    2026年1月29日 30 163 22

    数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
    packageimg
  • 孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集

    2026年1月28日 30 189 163

    数据集概述 本数据集为孟加拉语信息检索(IR)测试集,扩展了现有黄金标准数据集,包含100个查询-文档相关性对及1000篇文档的新测试集。文档来源于Ebela、Zee News等新闻平台及旅游博客,支持不同复杂度查询的检索性能评估,是孟加拉语IR研究的基础资源。 文件详解 BSE_qrels.json 文件格式:JSON...
    packageimg
  • Evaluation_Prompt_Based_评估与提示词数据

    2026年1月28日 30 22 7

    数据集概述 本数据集围绕评估与提示词(Prompt)主题构建,包含一份Excel文件,主要用于存储提示词相关内容。数据未进行训练/测试、数据/标签或原始/处理的拆分,文件结构简单,无嵌套目录。 文件详解 文件名称:Prompt.xlsx 文件格式:XLSX...
    packageimg
  • FuseCap_Based_COCO测试集图像描述文本数据_测试版

    2026年1月27日 30 160 145

    数据集概述 本数据集包含由FuseCap生成的COCO测试集图像描述文本,核心内容为针对COCO测试集图像的自动生成描述。数据集结构简单,仅含一个JSON格式文件,用于图像描述生成任务的测试场景验证。 文件详解 文件名称:coco_karpathy_test.json 文件格式:JSON...
    packageimg
  • Compound_words_Based_阿拉伯语中文复合词样本数据

    2026年1月27日 30 131 97

    数据集概述 本数据集包含阿拉伯语与中文复合词相关的样本数据,聚焦两种语言复合词的对比研究场景,为语言学领域的复合词结构、构成规则等分析提供基础样本支持,数据集由单一文件构成。 文件详解 文件名称:Arabic & Chinese samples.xlsx 文件格式:XLSX...
    packageimg
  • HoneyBee_Based_材料科学大语言模型渐进式指令微调数据集

    2026年1月26日 30 26 22

    数据集概述 本数据集是为材料科学领域大语言模型HoneyBee构建的渐进式指令微调数据,基于MatSci-Instruct可信数据整理流程生成,包含训练和测试两类指令数据,可用于材料科学专用大语言模型的微调训练与性能评估。 文件详解 训练指令文件 文件名称:honeybee_train_instructions.json 文件格式:JSON...
    packageimg
  • TuReV_Corpus_France_24突尼斯革命在线新闻语料库

    2026年1月26日 30 122 65

    数据集概述 本数据集为TuReV语料库,包含从France 24网站提取的突尼斯革命相关在线新闻内容,是研究该历史事件媒体报道的结构化文本资源。数据集仅含一个文件,无目录层级或数据拆分,便于直接使用。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX 字段映射介绍:包含从France...
    packageimg
  • 哥伦比亚_El_Tiempo_日报单日新闻提取数据_20221111

    2026年1月25日 30 49 21

    数据集概述 本数据集为哥伦比亚《El Tiempo》日报2022年11月11日的新闻提取数据,包含当天该报纸发布的新闻内容,以结构化格式存储,可用于新闻内容分析、媒体研究等场景,数据集仅含一个文件。 文件详解 文件名称:news_eltiempo_11-11-2022.json 文件格式:JSON...
    packageimg
  • Gitome_MSR2024_GitHub_README相关任务数据集

    2026年1月23日 30 99 35

    数据集概述 本数据集为Gitome,是一个用于GitHub README相关任务的精选数据集,包含数据模型、现有数据集、语言统计、主题统计、仓库列表等9个文件,支持MSR2024会议论文的实验结果复现,可用于GitHub README相关的数据分析与任务研究。 文件详解 emf_metamodel.zip 文件格式:ZIP...
    packageimg
  • HyperPhS_Based_文本嵌入数据与预训练模型_Processed

    2026年1月21日 30 28 15

    数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
    packageimg
  • log_datasets_Based_日志记录自动解析论文数据集_2021

    2026年1月21日 30 151 150

    数据集概述 本数据集为论文《On Automatic Parsing of Log Records》(Section 3.3)配套数据,以压缩包形式提供。数据包含需解析的日志字符串及对应字符级字段名标注,每条记录为日志字符串与“翻译”结果的二元组,用于支持日志记录自动解析研究。 文件详解 文件名称:log_datasets.zip 文件格式:ZIP...
    packageimg
  • ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1

    2026年1月20日 30 40 1

    数据集概述 本数据集为ArchiMob语料库Release 1,包含瑞士境内使用的德语变体口语转录文本,是首个瑞士德语长文本电子资源,总规模达528381个词元,可用于形态句法特征空间分布研究及自然语言处理任务。 文件详解 文件名称:ArchiMob_Release1_160812.zip 文件格式:ZIP(压缩包)...
    packageimg
  • DisinfoAppear_Based_在线虚假信息链接分类任务数据集_V1

    2026年1月20日 30 144 8

    数据集概述 本数据集针对在线虚假信息传播的新型链接分类任务构建,聚焦于事实核查文章中出现的链接,将其按文本语境分为虚假信息出现、支持证据、其他三类。包含训练集、测试集、说明文档及代码文件,可用于虚假信息传播相关的链接分类研究,共5个文件。 文件详解 数据文件 文件名称:GS_train.json、GS_test.json 文件格式:JSON...
    packageimg
  • Documentation_defects_Based_文档缺陷分类研究数据

    2026年1月20日 30 25 13

    数据集概述 本数据集包含101个根据分类体系进行分类的文档缺陷记录,用于研究文档缺陷的分类特征与分布情况。数据集仅包含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录结构,文件类型单一。 文件详解 文件名称:silva_techdebt2023_documentationdebt.xlsx 文件格式:XLSX...
    packageimg
  • BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集

    2026年1月20日 30 136 16

    数据集概述 本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。 文件详解...
    packageimg
  • Webis_ArgRank_17_Based_英文论证相关性研究基准数据集_2017

    2026年1月18日 30 34 16

    数据集概述 本数据集是用于研究论证相关性的英文基准数据集,包含32个排名、超过3万个论证单元的真实论证图,以及可复现排名实验的源代码。数据集以压缩包形式提供,无目录层级划分,可支持论证相关性领域的模型训练与评估。 文件详解 文件名称:webis-argrank-17.zip 文件格式:ZIP...
    packageimg
  • MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据

    2026年1月15日 30 172 26

    数据集概述 本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。 文件详解...
    packageimg