Vicuna_Based_生物与天然产物端到端关系抽取合成数据集

数据集概述

本数据集是用于生物与天然产物之间关系端到端抽取的合成训练/验证数据,基于Vicuna-13b-v1.5模型生成,源自LLaMA 2。数据依托GME-sampler提取的生物界前1000篇LOTUS文献参考构建,包含训练集10405项、验证集547项,遵循相关文章所述协议生成。

文件详解

  • 训练集文件
  • 文件名称:train.json
  • 文件格式:JSON
  • 字段映射介绍:包含10405项用于模型训练的生物与天然产物关系抽取合成数据
  • 验证集文件
  • 文件名称:valid.json
  • 文件格式:JSON
  • 字段映射介绍:包含547项用于模型验证的生物与天然产物关系抽取合成数据

适用场景

  • 生物医学关系抽取模型训练: 用于端到端关系抽取模型的训练,提升生物与天然产物关系识别能力
  • 模型性能验证: 借助验证集数据评估关系抽取模型在生物与天然产物关系任务上的泛化能力
  • 生物信息学研究: 支持生物与天然产物相互作用关系的自动化提取与分析
  • 低资源场景数据补充: 为生物医学领域关系抽取任务提供高质量合成数据,缓解真实标注数据不足问题
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 37.22 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。