RegEl_Based_生物医学文献调控元件基因疾病关联数据库_2022

数据集概述

本数据集是基于RegEl语料库训练的HunFlair模型对超过2000万篇PubMed摘要进行文本挖掘生成的数据库,包含调控元件(增强子、启动子、TFBS)及其与基因(标准化为NCBI Gene ID)和疾病(标准化为MeSH或OMIM)的关联注释,以压缩包形式提供。

文件详解

  • 文件名称:regel_db.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含三个核心表格文件
  • abstracts.db:存储PubMed摘要的句子级信息,字段包括pmid(PubMed ID)、sid(句子ID)、text(句子文本)
  • gene.db:存储调控元件与基因的关联信息,字段包括pmid、sid、etype(实体类型:enhancer/promoter/TFBS)、ann_text(调控元件提及文本)、start(起始位置)、end(结束位置)、score(模型置信度)、cui(基因标识符)、cui_symbol(基因官方符号)
  • disease.db:存储调控元件与疾病的关联信息,字段同gene.db(cui为疾病标识符)

数据来源

PubMed摘要、RegEl语料库、PubTator注释

适用场景

  • 基因调控机制研究:分析调控元件(增强子、启动子等)与特定基因的关联模式
  • 疾病分子机制探索:挖掘调控元件异常与疾病发生的潜在联系
  • 生物医学文献挖掘:基于PubMed摘要批量提取调控元件相关的结构化信息
  • 精准医学研究:为疾病的靶点识别和药物研发提供调控元件-基因-疾病关联数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 289.96 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。