数据集概述
本数据集来源于iSTOP研究项目,包含8种真核生物(智人、小鼠、大鼠、斑马鱼、秀丽隐杆线虫、黑腹果蝇、拟南芥和酿酒酵母)的基因组编辑靶点信息。每个文件对应一个物种的基因组数据,记录了基因中可靶向的基因组坐标。所有开放阅读框均经过验证,确保具有正确的起始和终止密码子、适当的序列长度且无内部终止密码子。数据集共包含9个文件,其中8个为CSV格式的数据文件,1个为PDF格式的图表示例说明。
文件详解
- 物种基因组靶点数据文件(8个CSV文件)
- 文件名称: 遵循"物种名-基因组组装ID.csv"模式(如:H.sapiens-hg38.csv, M.musculus-mm10.csv等)
- 文件格式: CSV
- 字段映射介绍: 包含基因名称、染色体、链方向、基因组坐标、靶向密码子、异构体数量、靶向异构体百分比、无义介导衰变预测百分比、最大异构体相对位置、上游无G碱基标识、RFLP丢失/获得酶信息,以及多种PAM序列对应的sgRNA指导序列和脱靶位点数量等详细参数。
- 图表示例说明文件
- 文件名称: Table legend.pdf
- 文件格式: PDF
- 字段映射介绍: 提供数据表格中各字段的详细说明和图例解释。
数据来源
论文"iSTOP datasets" (Billon, Bryant et al, Molecular Cell, 2017)
适用场景
- 基因组编辑实验设计: 为CRISPR/Cas9等基因编辑技术提供精确的靶点选择和sgRNA设计指导。
- 基因功能研究: 支持研究人员针对特定基因进行功能丧失性研究,探索基因的生物学功能。
- 脱靶效应分析: 利用脱靶位点数据评估基因编辑的特异性和安全性。
- 比较基因组学研究: 在8种真核生物间进行基因编辑靶点的保守性和差异性分析。
- 生物信息学工具开发: 为开发新的基因编辑预测算法和工具提供基准数据集。