全面生物医学实体识别数据集

全面生物医学实体识别数据集 数据来源:互联网公开数据 标签:生物医学,实体识别,自然语言处理,机器学习,药物描述,专利摘要,文本分析

数据概述: 本数据集旨在为生物医学文本中的命名实体识别(NER)任务提供全面的数据支持。数据集包含从PubMed摘要、FDA药物描述和专利摘要等来源采集的生物医学文献,涵盖了近24种不同的实体类别,包括化学物质、临床药物、解剖结构、基因、地理位置和知识产权等。这些类别涵盖了从生物医学特异性术语到一般术语的广泛范围,为开发和测试自动化的NER系统提供了丰富的数据基础。

数据用途概述: 该数据集适用于开发和评估生物医学文本中的自动命名实体识别系统。研究人员可以通过此数据集训练和验证模型,确保其能够准确识别和分类各种生物医学实体。此外,该数据集还适用于生物医学信息学、药物研发、知识产权分析等多个领域的应用。教育机构和培训机构可以利用此数据集进行相关的教学和培训,帮助学习者掌握生物医学文本分析的关键技能。

举例: 数据集中包含一个PubMed摘要示例,摘要中提到了多种实体,如“EGFR”(基因)、“Lung Cancer”(疾病)、“New York City”(地理位置)和“Cetuximab”(临床药物)。这些实体都被正确地标记为各自的类别,为模型训练提供了清晰的示例。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.17 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。