数据集概述
本数据集为训练CNN模型提供源数据,用于预测GM12878细胞中的沉默子、增强子并识别超级沉默子。包含训练、验证、测试三类实验数据文件,以bed格式为主,辅以说明文档和表格文件,总计十一个文件,可支持基因调控元件预测模型的构建与验证。
文件详解
- 训练数据文件
- 文件名称:E116.train_silencer.bed、E116.train_enhancer.bed、E116.train_control.bed
- 文件格式:BED
- 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型训练的沉默子、增强子及对照样本的基因组区域信息
- 验证数据文件
- 文件名称:E116.valid_silencer.bed、E116.valid_enhancer.bed、E116.valid_control.bed
- 文件格式:BED
- 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型验证的沉默子、增强子及对照样本的基因组区域信息
- 测试数据文件
- 文件名称:E116.test_control.bed
- 文件格式:BED
- 字段映射介绍:基于hg19基因组版本,包含GM12878细胞中用于模型测试的对照样本基因组区域信息
- 辅助文件
- 文件名称:README.txt
- 文件格式:TXT
- 字段映射介绍:说明文档,标注所有bed文件基于hg19基因组,明确train/valid/test类文件的用途
- 文件名称:tables_resub.xlsx
- 文件格式:XLSX
- 字段映射介绍:补充表格文件,具体内容未详细说明
适用场景
- 基因调控元件预测模型训练: 用于构建CNN模型,预测GM12878细胞中的沉默子、增强子及超级沉默子
- 基因组调控区域分析: 基于bed文件中的基因组区域信息,研究GM12878细胞的基因表达调控机制
- 深度学习模型验证: 利用训练、验证、测试三类数据,验证基因调控预测模型的性能与准确性
- 表观遗传学研究: 辅助分析沉默子、增强子在GM12878细胞中的分布特征及功能作用