数据集概述
本数据集是用于碘标记显微CT(µCT)成像预测的蛋白质组学研究补充材料,包含研究所需的原始数据、分析结果、脚本等文件,覆盖蛋白质家族分类、基因注释、功能分析等内容,为相关研究提供完整的数据支持。
文件详解
该数据集由多个目录和文件组成,具体说明如下:
- 主目录: Proteomic study for the prediction of µCT imaging/
- 数据与结果目录 (Data and results/):
- 蛋白质组数据文件: human_proteome.gz(压缩格式,可能包含人类蛋白质组原始数据)
- 家族分类文件: Families/目录下含interpro_families.csv、uniprot_families.csv、hgnc_families.csv等CSV格式文件,记录不同数据库的蛋白质家族分类信息
- 功能分析文件: Absolute data/与Relative data/目录下含GO术语(分子功能、细胞组分、生物过程)CSV文件及对应分析图表PDF文件(如molecular_function_go_terms.pdf)
- 相似性索引文件: Families/similarity_index.txt(文本格式,记录蛋白质家族相似性数据)
- 异构体数据目录 (Data and results (isoforms)/):
- 异构体蛋白质组数据: human_isoforms.gz(压缩格式,人类蛋白质异构体数据)
- 异构体家族分类文件: Families/目录下含uniprot_families.csv、hgnc_families.csv等CSV文件
- 异构体功能分析文件: Absolute data/与Relative data/目录下含GO术语CSV文件及分析图表PDF文件
- 分析脚本文件: AnalyseHeterocylces.py(Python脚本,用于杂环化合物分析)
适用场景
- 蛋白质组学研究: 分析人类蛋白质组及其异构体的家族分类与功能特征
- 医学成像研究: 探索蛋白质组学数据对碘标记µCT成像结果的预测价值
- 生物信息学分析: 基于InterPro、UniProt等数据库的蛋白质家族注释数据开展功能富集分析
- 计算生物学应用: 利用Python脚本复现杂环化合物相关的蛋白质组分析流程