数据集 - 海数据

多源信息检索与问答的多智能体系统编排数据集

2025年12月7日

数据集概述本数据集核心内容为一个基于大语言模型的多智能体系统框架文档，该框架用于多源信息检索与问答任务，整合非结构化文档与结构化数据库信息，通过专业智能体协作及自适应提示工程提升查询准确性，在合同管理领域验证了有效性。文件详解文件名称：13624ijnlc03.PDF 文件格式：PDF（.pdf）...

ZIP

cBioPortal_Chroma_Based_2024_cBioPortal内容向量数据库完整数据

2025年12月5日

数据集概述该数据集包含2024年7月收集的cBioPortal文档、Google Groups及研究文章的向量数据库，用于LangChain大语言模型聊天机器人应用，需配置环境变量和API密钥运行示例脚本。文件详解文件名称: cbioportal_chroma_zenodo.zip 文件格式: ZIP（.zip）内容说明:...

ZIP

数据5个问答系统在QALD数据集上的学习问题数据集

2025年12月5日

数据集概述该数据集提供5个问答系统（QA Systems）在QALD10、QALD9+DB和QALD9+WK三个数据集上的学习问题数据，以JSON格式存储。数据记录了各系统的性能表现，通过正负例区分系统回答正确（F1≥0.5）和错误（F1<0.5）的问题。文件详解文件名称: TF_Json.zip 文件格式: ZIP压缩包内容说明:...

ZIP

知识图谱问答系统评估数据集MQALD

2025年12月5日

数据集概述该数据集用于评估知识图谱问答（QA over KG）系统的性能，聚焦于将复杂自然语言问题转化为合规数据查询语言的能力，尤其关注含聚合函数、查询形式等修饰符的复杂问题，为该领域研究提供公开评估资源。文件详解文件名称: MQALD_v4.zip 文件格式: ZIP压缩包文件内容:...

ZIP

SCAI_QReCC2021对话式问答共享任务结果数据集

2025年12月4日

数据集概述本数据集为2021年SCAI-QReCC对话式问答共享任务的结果数据，基于原始QReCC数据集处理而成，包含任务数据集、答案合理性标注数据及相关压缩文件，支持对话式问答任务的研究与评估。文件详解任务数据集与标注文件： turns.zip：压缩文件，包含修正对话轮次编号的数据集拆分文件，如scai-qrecc21-training-...

ZIP

PROSHNO_BINNASH孟加拉语多标签问题分类与翻译数据集

2025年11月29日

数据集概述本数据集为孟加拉语PROSHNO BINNASH（问题分类）数据集，主要用于支持孟加拉语的多标签问题分类和问答任务。数据集包含两个Excel文件，分别存储原始孟加拉语问题及其英文翻译版本，为自然语言处理研究提供结构化的孟加拉语问题标注数据。文件详解原始孟加拉语问题文件文件名称：PROSHNO BINNASH/Proshno_...

ZIP

印度人民院数据集2019_2024

2025年11月29日

数据集概述该数据集基于印度第17届人民院（2019-2024）第一届会议数据构建，包含6200个文件，每个文件最多含6组对应问题与答案，覆盖多个相关部委，为研究印度议会问答内容提供结构化数据支持。文件详解文件名称: VindLok Dataset.xlsx 文件格式: Excel (.xlsx) 核心字段: Loksabha: 人民院届次...

ZIP

新冠病毒问答训练测试数据集

2025年11月28日

数据集概述该数据集包含Naver Knowledge-iN用户提出的新冠病毒相关问题，分为训练集和测试集，以Excel格式存储，为新冠病毒相关问答任务的模型训练与测试提供数据支持。文件详解文件名称：COVID-19 train & test dataset/data.xlsx 文件格式：Excel (.xlsx) 文件内容：包含Naver...

ZIP

波斯语医药问答与专家回复专业数据集

2025年11月28日

数据集概述该数据集包含一万二千三百九十九条按药品名称分类的波斯语评论，其中三千八百一十条（百分之三十八点一）附有专家回复及专家专业领域信息。数据集还涵盖药品名称、Martindale分类、专家类别与专业领域数据，以及波斯语内容的英文翻译版本。文件详解该数据集由数据文件和代码文件组成，具体说明如下： - 数据文件: - Dataset.xlsx:...

ZIP

肯尼亚卢希亚语卢马拉奇方言问答数据集

2025年11月28日

数据集概述该数据集基于肯尼亚语言语料库Kencorpus项目中的137篇卢希亚语卢马拉奇方言文本，标注生成1000组问答对，是人工标注的低资源语言问答数据集，支持该方言的机器学习问答系统开发与测试。文件详解文件名称: KenLumachiQuAD.csv 文件格式: CSV 字段说明: Story_ID:...

ZIP

历史问答生成数据集

2025年11月28日

数据集概述本数据集基于多视角对话历史生成问答对，核心内容是从Ubuntu对话语料库中提取多轮对话，通过对话ID合并为上下文后生成问题与答案，并标注答案在上下文中的起止位置，支持问答模型训练与评估。文件详解该数据集包含4个数据文件，具体说明如下： - 训练集文件: - train_data.csv:...

ZIP

规范性文档交互式问答数据集

2025年11月28日

数据集概述该数据集包含基于十二份不同机构（大学与银行）规范性文档的问答对，由十五名标注者手动生成一千七百六十七个问题。文档平均十四页，每页约十二点八个问题，每段一点一个问题，段落覆盖率约百分之三十三。问答对含文档标题、路径、问题及原文答案，部分问题提供优化版本，支持交互式问答系统测试。文件详解该数据集包含文档文件与数据文件两类，具体说明如下： -...

ZIP

孟加拉国宪法问答数据集

2025年11月27日

数据集概述该数据集专为自然语言处理（NLP）模型的开发与评估设计，聚焦问答任务。核心内容为基于孟加拉国宪法的问题及对应答案，旨在推动法律与政府文本相关NLP机器学习模型的研究进展。文件详解该数据集包含2个Excel文件，具体说明如下： - 文件名称: Songbidan datasets Bangla version.xlsx - 文件格式:...

ZIP

摩洛哥阿拉伯语医疗问答数据集

2025年11月27日

数据集概述该数据集是首个公开的摩洛哥阿拉伯语（Darija）医疗领域问答数据集，包含超十一万四千条标注医疗专科的问答对，覆盖精神病学、心脏病学等二十三个专科，填补了北非低资源方言临床自然语言处理的空白。文件详解该数据集由二十四个CSV格式文件组成，按医疗专科分类存储，具体说明如下： - 综合数据文件: - MedQA_MA.csv:...

ZIP

知识问答推理数据集

2025年11月23日

知识问答推理数据集_Knowledge_Question_Answering_Reasoning_Dataset 数据来源：互联网公开数据标签：知识推理, 问答系统, 自然语言处理, 关系抽取, 机器学习, 文本匹配, 语义理解, 知识图谱数据概述：...

ZIP

问题解答质量评估模型预测数据集

2025年11月21日

问题解答质量评估模型预测数据集_Question_Answering_Quality_Assessment_Model_Predictions 数据来源：互联网公开数据标签：问答系统, 文本分析, 机器学习, 预测模型, 质量评估, 自然语言处理, 模型评估, 标注数据数据概述：...

ZIP

知识问答题目难度评估数据集

2025年11月21日

知识问答题目难度评估数据集_Knowledge_Question_Difficulty_Assessment 数据来源：互联网公开数据标签：题目难度评估, 知识问答, 机器学习, 模型训练, 难度预测, 数据分析, 教育领域, 竞赛数据数据概述：该数据集包含用于评估知识问答题目难度的相关数据，主要用于构建和评估题目难度预测模型。主要特征如下：...

ZIP

问答内容文本分类数据集

2025年11月19日

问答内容文本分类数据集_Question_Answering_Text_Classification_Dataset 数据来源：互联网公开数据标签：文本分类, 问答系统, 自然语言处理, 情感分析, 话题分类, 语料库, 机器学习, 数据集数据概述：该数据集包含来自雅虎问答平台（Yahoo...

ZIP

问答匹配关系数据集

2025年7月6日

问答匹配关系数据集_Question_Answering_Matching_Relationship 数据来源：互联网公开数据标签：问答系统, 匹配关系, 自然语言处理, 文本分析, 知识检索, 数据挖掘, 关系建模, 机器学习数据概述：该数据集包含问答匹配关系数据，记录了问题与答案之间的关联。主要特征如下：...

ZIP

越南法律问答数据集

2025年10月28日

越南法律问答数据集_Vietnam_Legal_Question_Answering_Dataset 数据来源：互联网公开数据标签：法律问答, 自然语言处理, 文本检索, 问答系统, 越南法律, 机器阅读理解, 数据集, 文本分析数据概述：该数据集包含来自越南法律领域的问答数据，旨在支持越南语法律文本的机器阅读理解和问答系统开发。主要特征如下：...

ZIP

找到614个数据集

注册成功！