基因组生物医学事件数据集

基因组生物医学事件数据集 数据来源:互联网公开数据
标签:生物医学文本,事件标注,自然语言处理,NLP,药物效果分析,医学条件识别,数据集简化版

数据概述:
本数据集是GENIA事件标注数据集的简化版本,来源于TEES平台,基于BioNLP共享任务2011(BioNLP Shared Task 2011)的原始数据。数据集共包含生物医学文本中的事件相关信息,包括原始文本、触发词、触发词位置以及关联的事件类型。数据集分为三个部分:训练集(约8000+句)、开发集(约3000句)和测试集(约3000句),每部分包含四个字段:“Sentence”(原始生物医学文本)、“TriggerWord”(触发词)、“TriggerWordLoc”(触发词在文本中的位置)和“EventType”(触发词关联的事件类型)。

数据用途概述:
该数据集适用于生物医学领域的信息提取任务,特别是生物医学事件的自动化提取。其主要应用场景包括:
1. 药物效果分析:识别药物对个体产生的影响,帮助研究人员快速获取药物相关事件信息。
2. 医学条件识别:通过事件标注识别文本中涉及的特定医学条件,支持疾病诊断和研究。
3. 自然语言处理研究:用于开发和测试基于生物医学文本的事件抽取模型,提升NLP在医学领域的应用能力。
4. 药物研发和医学研究:为药物开发、医学文献分析和临床研究提供高质量标注数据。
5. 教育和培训:适合用于生物信息学、自然语言处理和医学相关领域的教学和培训,帮助学习者理解生物医学事件的结构和特征。

备注:
- 数据集是GENIA事件标注数据集的简化版本,原始数据来源于BioNLP共享任务2011。
- 如需获取完整的未处理版本,可参考“genia-event-2011”数据集。
- TEES平台的授权信息请参见相关链接,GENIA数据集的授权信息请查看数据文件夹中的“GE11-LICENSE”文件。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.95 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。