数据集概述
本数据集是Vernone et al. 2020年发表的"Chromosome Walking"研究的完整项目文件夹,包含所有用于分析人类蛋白质氨基酸含量(按基因位置排序)的数据集和代码,共14个文件,覆盖.xls、.pl、.xlsx等5种格式,核心为基因相关的表格和序列数据。
文件详解
- 数据文件(共11个)
- 表格文件(.xls/.xlsx格式,共11个):包括CHR15_gene_Biomart_excel_elab.xls、CHR15_canonical_WALKING.xlsx、CHR21_canonical.xls等,记录不同染色体(如CHR01、CHR14、CHR15、CHR21)的基因信息、蛋白质氨基酸含量分析结果
- 文本文件(.txt格式,1个):CHR15_Biomart.txt,包含基因序列相关文本内容,如ENSG00000137764等基因的标识及序列片段
- 序列文件(.fa格式,1个):CHR15_Biomart_TAB.fa,存储基因序列数据
- 代码文件(共1个)
- .pl格式:CHR15_fasta_elab.pl,用于处理序列数据的脚本文件
数据来源
Vernone et al. 2020年发表的论文"Chromosome Walking: A Novel Approach to Analyse Amino Acid Content of Human Proteins Ordered by Gene Position"
适用场景
- 生物信息学研究:分析人类蛋白质氨基酸含量与基因位置的关联性
- 基因数据挖掘:基于不同染色体的基因信息,挖掘基因序列特征与蛋白质结构的关系
- 蛋白质组学分析:利用蛋白质氨基酸含量数据,开展蛋白质功能及分类研究
- 生物数据处理方法验证:参考CHR15_fasta_elab.pl等代码,验证生物序列数据的处理流程与算法