找到51个数据集

分类: 公开数据 标签: NLP任务

过滤结果
  • CLAO_全唐诗宋词自动标注补充数据

    2026年2月15日 30 142 122

    数据集概述 本数据集包含全唐诗和全宋词的完整诗歌内容,通过Community annotator工具进行自动标注,是论文“Leveraging graph algorithms to speed up the annotation of large rhymed corpora”的补充材料,可用于古典文学文本的标注研究与分析。 文件详解...
    packageimg
  • 西班牙语复合时态变体研究数据集

    2026年2月12日 30 102 74

    数据集概述 本数据集聚焦西班牙语复合时态的变体研究,包含11个Excel文件,覆盖bemos_beis、sincretismo_hemos_hamos等不同语法变体主题,为西班牙语语法变体分析提供结构化数据支持。 文件详解 文件名称:bemos_beis.xlsx 文件格式:XLSX...
    packageimg
  • Papers_With_Code_Based_软件提及语料库数据

    2026年2月12日 0 47 20

    数据集概述 本数据集是从Papers With Code平台下载的出版物列表中构建的软件提及语料库,通过筛选包含GitHub仓库元数据的论文文本生成。数据集仅包含一个压缩文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一。 文件详解 文件名称:papers_with_code_corpus.zip 文件格式:ZIP(压缩包)...
    packageimg
  • ACL25_Based_多轮系统对话数据_压缩包

    2026年2月1日 30 31 3

    数据集概述 本数据集包含ACL25相关的多轮系统对话内容,以压缩包形式提供,未划分训练/测试集、数据/标签集或原始/处理数据,无额外说明文档或内容预览,整体结构简洁,仅含一个压缩文件。 文件详解 压缩文件 文件名称:acl25-multiple-system-turns-dialogs.zip 文件格式:ZIP...
    packageimg
  • IAM_OnDB_Based_单词图像压缩包数据

    2026年2月1日 30 165 134

    数据集概述 本数据集为IAM-OnDB单词图像数据,核心内容为单词相关的图像资源,以压缩包形式提供,未包含训练/测试、数据/标签、原始/处理等划分,无额外说明文档或内容预览,便于自然语言处理领域相关研究使用。 文件详解 文件名称:IAM-OnDB_words.zip 文件格式:ZIP 字段映射介绍:为压缩包文件,包含IAM-...
    packageimg
  • DRIP_Based_软件需求文档段落需求提取数据集

    2026年1月31日 30 47 27

    数据集概述 本数据集为DRIP项目相关的软件需求文档数据集,包含近五年RE、ICSE、REFSQ、REJ会议及期刊的软件需求文档数据,共4个归档文件,用于从软件需求文档段落中提取单个需求的任务。 文件详解 训练数据文件 文件名称:trainData.gz 文件格式:.gz 字段映射介绍:未提供具体字段信息 标注数据文件 文件名称:annotation...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日 30 107 60

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • CEEC_Based_历史英语拼写规范化人工标注测试集数据

    2026年1月30日 30 30 18

    数据集概述 本数据集为CEEC语料库历史英语规范化测试集,包含人工生成的三组历史-现代拼写对列表:混合世纪列表、15世纪列表和18世纪列表,每组各100对。历史形式均源自CEEC语料库,总计包含一个文件。 文件详解 文件名称:test_set_of_normalizations.xlsx 文件格式:XLSX...
    packageimg
  • NCOMMS_25_07426_Based_文档数据_无时间

    2026年1月29日 30 113 21

    数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
    packageimg
  • 孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集

    2026年1月28日 30 176 118

    数据集概述 本数据集为孟加拉语信息检索(IR)测试集,扩展了现有黄金标准数据集,包含100个查询-文档相关性对及1000篇文档的新测试集。文档来源于Ebela、Zee News等新闻平台及旅游博客,支持不同复杂度查询的检索性能评估,是孟加拉语IR研究的基础资源。 文件详解 BSE_qrels.json 文件格式:JSON...
    packageimg
  • Evaluation_Prompt_Based_评估与提示词数据

    2026年1月28日 30 57 41

    数据集概述 本数据集围绕评估与提示词(Prompt)主题构建,包含一份Excel文件,主要用于存储提示词相关内容。数据未进行训练/测试、数据/标签或原始/处理的拆分,文件结构简单,无嵌套目录。 文件详解 文件名称:Prompt.xlsx 文件格式:XLSX...
    packageimg
  • FuseCap_Based_COCO测试集图像描述文本数据_测试版

    2026年1月27日 30 24 3

    数据集概述 本数据集包含由FuseCap生成的COCO测试集图像描述文本,核心内容为针对COCO测试集图像的自动生成描述。数据集结构简单,仅含一个JSON格式文件,用于图像描述生成任务的测试场景验证。 文件详解 文件名称:coco_karpathy_test.json 文件格式:JSON...
    packageimg
  • Compound_words_Based_阿拉伯语中文复合词样本数据

    2026年1月27日 30 22 8

    数据集概述 本数据集包含阿拉伯语与中文复合词相关的样本数据,聚焦两种语言复合词的对比研究场景,为语言学领域的复合词结构、构成规则等分析提供基础样本支持,数据集由单一文件构成。 文件详解 文件名称:Arabic & Chinese samples.xlsx 文件格式:XLSX...
    packageimg
  • HoneyBee_Based_材料科学大语言模型渐进式指令微调数据集

    2026年1月26日 30 184 156

    数据集概述 本数据集是为材料科学领域大语言模型HoneyBee构建的渐进式指令微调数据,基于MatSci-Instruct可信数据整理流程生成,包含训练和测试两类指令数据,可用于材料科学专用大语言模型的微调训练与性能评估。 文件详解 训练指令文件 文件名称:honeybee_train_instructions.json 文件格式:JSON...
    packageimg
  • TuReV_Corpus_France_24突尼斯革命在线新闻语料库

    2026年1月26日 30 48 7

    数据集概述 本数据集为TuReV语料库,包含从France 24网站提取的突尼斯革命相关在线新闻内容,是研究该历史事件媒体报道的结构化文本资源。数据集仅含一个文件,无目录层级或数据拆分,便于直接使用。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX 字段映射介绍:包含从France...
    packageimg
  • 哥伦比亚_El_Tiempo_日报单日新闻提取数据_20221111

    2026年1月25日 30 100 28

    数据集概述 本数据集为哥伦比亚《El Tiempo》日报2022年11月11日的新闻提取数据,包含当天该报纸发布的新闻内容,以结构化格式存储,可用于新闻内容分析、媒体研究等场景,数据集仅含一个文件。 文件详解 文件名称:news_eltiempo_11-11-2022.json 文件格式:JSON...
    packageimg
  • Gitome_MSR2024_GitHub_README相关任务数据集

    2026年1月23日 30 178 77

    数据集概述 本数据集为Gitome,是一个用于GitHub README相关任务的精选数据集,包含数据模型、现有数据集、语言统计、主题统计、仓库列表等9个文件,支持MSR2024会议论文的实验结果复现,可用于GitHub README相关的数据分析与任务研究。 文件详解 emf_metamodel.zip 文件格式:ZIP...
    packageimg
  • HyperPhS_Based_文本嵌入数据与预训练模型_Processed

    2026年1月21日 30 89 36

    数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
    packageimg
  • log_datasets_Based_日志记录自动解析论文数据集_2021

    2026年1月21日 30 94 64

    数据集概述 本数据集为论文《On Automatic Parsing of Log Records》(Section 3.3)配套数据,以压缩包形式提供。数据包含需解析的日志字符串及对应字符级字段名标注,每条记录为日志字符串与“翻译”结果的二元组,用于支持日志记录自动解析研究。 文件详解 文件名称:log_datasets.zip 文件格式:ZIP...
    packageimg
  • ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1

    2026年1月20日 30 148 127

    数据集概述 本数据集为ArchiMob语料库Release 1,包含瑞士境内使用的德语变体口语转录文本,是首个瑞士德语长文本电子资源,总规模达528381个词元,可用于形态句法特征空间分布研究及自然语言处理任务。 文件详解 文件名称:ArchiMob_Release1_160812.zip 文件格式:ZIP(压缩包)...
    packageimg