数据集概述
本数据集是基于RegEl语料库训练的HunFlair模型对超过2000万篇PubMed摘要进行文本挖掘生成的数据库,包含调控元件(增强子、启动子、TFBS)及其与基因(标准化为NCBI Gene ID)和疾病(标准化为MeSH或OMIM)的关联注释,以压缩包形式提供。
文件详解
- 文件名称:regel_db.zip
- 文件格式:ZIP
- 字段映射介绍:包含三个核心表格文件
- abstracts.db:存储PubMed摘要的句子级信息,字段包括pmid(PubMed ID)、sid(句子ID)、text(句子文本)
- gene.db:存储调控元件与基因的关联信息,字段包括pmid、sid、etype(实体类型:enhancer/promoter/TFBS)、ann_text(调控元件提及文本)、start(起始位置)、end(结束位置)、score(模型置信度)、cui(基因标识符)、cui_symbol(基因官方符号)
- disease.db:存储调控元件与疾病的关联信息,字段同gene.db(cui为疾病标识符)
数据来源
PubMed摘要、RegEl语料库、PubTator注释
适用场景
- 基因调控机制研究:分析调控元件(增强子、启动子等)与特定基因的关联模式
- 疾病分子机制探索:挖掘调控元件异常与疾病发生的潜在联系
- 生物医学文献挖掘:基于PubMed摘要批量提取调控元件相关的结构化信息
- 精准医学研究:为疾病的靶点识别和药物研发提供调控元件-基因-疾病关联数据支持