Source_data_CNN_Model_Training_GM12878细胞沉默子增强子预测数据

数据集概述

本数据集为训练CNN模型提供源数据,用于预测GM12878细胞中的沉默子、增强子并识别超级沉默子。包含训练、验证、测试三类实验数据文件,以bed格式为主,辅以说明文档和表格文件,总计十一个文件,可支持基因调控元件预测模型的构建与验证。

文件详解

  • 训练数据文件
  • 文件名称:E116.train_silencer.bed、E116.train_enhancer.bed、E116.train_control.bed
  • 文件格式:BED
  • 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型训练的沉默子、增强子及对照样本的基因组区域信息
  • 验证数据文件
  • 文件名称:E116.valid_silencer.bed、E116.valid_enhancer.bed、E116.valid_control.bed
  • 文件格式:BED
  • 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型验证的沉默子、增强子及对照样本的基因组区域信息
  • 测试数据文件
  • 文件名称:E116.test_control.bed
  • 文件格式:BED
  • 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型测试的对照样本基因组区域信息
  • 辅助文件
  • 文件名称:README.txt
  • 文件格式:TXT
  • 字段映射介绍:说明文档,标注所有bed文件基于hg19基因组,明确train/valid/test类文件的用途
  • 文件名称:tables_resub.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:补充表格文件,具体内容未详细说明

适用场景

  • 基因调控元件预测模型训练: 用于构建CNN模型,预测GM12878细胞中的沉默子、增强子及超级沉默子
  • 基因组调控区域分析: 基于bed文件中的基因组区域信息,研究GM12878细胞的基因表达调控机制
  • 深度学习模型验证: 利用训练、验证、测试三类数据,验证基因调控预测模型的性能与准确性
  • 表观遗传学研究: 辅助分析沉默子、增强子在GM12878细胞中的分布特征及功能作用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 125.33 MiB
最后更新 2026年1月3日
创建于 2026年1月3日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。