-
InstructIE_Based_双语指令信息抽取数据集
2026年1月30日 30 125 115
数据集概述 本数据集为InstructIE双语指令信息抽取数据集,包含中文和英文两种语言的指令调优数据,覆盖事件、自然科学、建筑结构等多个类别。数据集由9个文件组成,主要文件格式为JSON和MD,适用于信息抽取任务的模型训练与评估。 文件详解 说明文档 文件名称:README_ZH.md、README.md 文件格式:MD...
-
从语音到容器_文本转Docker数据集
2025年12月13日 30 61 25
数据集概述 该数据集包含三千一百九十二个不同的Docker命令样本,每个样本配有对应的自然语言描述(称为"prompt")。数据分为英语版本(含训练、验证、测试集)和西班牙语版本(仅测试集),以压缩包形式提供,为文本转Docker命令的研究提供数据支持。 文件详解 文件名称: data.zip 文件格式: ZIP压缩包 内容说明:...
-
多语言临床病例报告摘要数据集2025
2025年12月13日 30 129 36
数据集概述 该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。 文件详解 该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下: - 黄金标准训练集(各语言592对全文与摘要): -...
-
CT_FAN多语言假新闻检测数据集2022
2025年12月5日 30 120 116
数据集概述 该数据集为多语言假新闻检测任务设计,包含2010-2022年英文和德文新闻文章,标注其真实性评级(假、部分假、真、其他)及主题领域,支持跨语言迁移学习研究,适用于构建多语言假新闻分类模型。 文件详解 文件名称:FakeNews_Task3_2022.zip 文件格式:ZIP压缩包 内部数据字段: ID:新闻文章唯一标识符...



