BioASQ_Based_生物医学专家真实需求问答基准数据集

数据集概述

本数据集为BioASQ生物医学问答基准数据集,包含英文问题、标准参考答案及相关材料,反映生物医学专家真实信息需求,兼具挑战性与实用性。数据集融合结构化与非结构化数据,除精确答案外还包含理想答案(摘要形式),适用于问答系统、多文档摘要、信息检索等多任务研究,且随BioASQ挑战赛持续扩展。

文件详解

  • README文件
  • 文件名称:README
  • 文件格式:无扩展名
  • 字段映射介绍:说明数据用途,指出训练数据文件为training11b.json,提及该文件涵盖挑战赛前十版的4719个问题及相关文档、片段、概念、RDF三元组、精确与理想答案,提供数据格式及参与BioASQ任务的参考链接,对比与BioASQ-training10b.json的差异。
  • training11b.json文件
  • 文件名称:training11b.json
  • 文件格式:JSON
  • 字段映射介绍:包含挑战赛前十版的4719个问题,每个问题关联相关文档、片段、概念、RDF三元组,以及精确答案和理想答案,支持信息检索、摘要生成、自然语言生成等任务。

数据来源

BioASQ挑战赛

适用场景

  • 生物医学问答系统研发: 用于训练和评估生物医学领域问答系统的性能,优化答案准确性与相关性。
  • 多文档摘要研究: 利用理想答案(摘要形式)数据,开展生物医学文本的多文档摘要算法开发与验证。
  • 信息检索与段落检索实验: 基于问题关联的文档和片段数据,进行生物医学领域的信息检索与段落检索模型测试。
  • 自然语言生成研究: 通过概念与文本映射数据,探索生物医学概念到文本的自然语言生成技术。
  • 文本复述与蕴含分析: 评估复述和文本蕴含方法对生物医学问答系统性能的提升效果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 35.9 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。