数据集概述
本数据集围绕癌症中重复序列区域的插入缺失(indel)链不对称性展开,通过转录本定向分析揭示DNA修复通路(如TC-NER、MMR)对indel突变的影响,包含相关分析脚本、统计表格及数据文件,为研究DNA修复与indel突变机制提供支持。
文件详解
该数据集包含多个目录和文件,具体说明如下:
- 表格计数文件 (位于 table_counts/ 目录下):
- Table_indels_total_by_cancer_type.txt: 文本文件,包含不同癌症类型的插入缺失总数统计。
- Table_indels_per_patient_and_cancer_type.txt: 文本文件,包含按患者和癌症类型分类的插入缺失统计。
- data_polyG_cancers、data_polyT_cancers: 可能为多聚G、多聚T重复序列相关的癌症数据文件。
- steps.txt: 文本文件,记录表格计数的步骤说明。
- 重复序列基序分析文件 (位于 repeat_motifs_in_genome/ 目录下):
- read_template_non_template_TSS.py、TSA_count.py等Python脚本: 用于分析重复序列基序与转录起始位点(TSS)关系的代码文件。
- motif_finding/ 子目录: 包含 findMotifs2_n_multiple_di.py 等基序查找相关的Python脚本。
- polyNs/ 子目录: 包含 get_poly.py 等多聚核苷酸序列提取脚本及 polyNs.fa 序列文件。
- genes.detail.+.strand.txt、genes.detail.-.strand.txt: 文本文件,可能为正链、负链基因的详细信息。
- 插入缺失不对称性分析文件 (位于 indels_asymmetry/ 目录下):
- asymmetry_calculation/ 子目录: 包含 get_per_gene_intersects.py 等用于计算链不对称性的Python脚本。
- controlling_leading_lagging_asymmetry/ 子目录: 包含 get_per_gene_leading_lagging.py 等分析前导链、滞后链影响的脚本及相关文本和数据文件(如 MCF7_RepliStrand.lagging、MCF7_RepliStrand.leading)。
- expression_asymmetry/ 子目录: 包含 calc_total_expressions_RNA_seq.py 等分析表达量与不对称性关系的脚本。
- simulated_indels/ 子目录: 包含 control_gen.py 等模拟插入缺失的脚本及 qsub.sh 批处理文件。
- 其他文件:
- 多个 steps.txt 文件: 分布在不同子目录中,记录各分析步骤的说明。
适用场景
- 癌症基因组学研究: 分析不同癌症类型中重复序列区域插入缺失的分布特征与链不对称性。
- DNA修复机制研究: 探究转录偶联核苷酸切除修复(TC-NER)、错配修复(MMR)等通路对indel突变的影响。
- 生物信息学方法开发: 参考基于转录本定向的插入缺失分析方法与相关脚本实现。
- 肿瘤突变机制分析: 研究插入和缺失在DNA修复通路依赖上的差异,揭示肿瘤发生的分子机制。