人类转录本生物类型与蛋白质特征数据集-astrabertelli
数据来源:互联网公开数据
标签:人类基因组,转录组,生物信息学,蛋白质组学,生物特征,基因表达,生物类型,蛋白质特性,机器学习
数据概述:
本数据集包含了从GENCODE数据库下载并预处理的人类转录本信息。数据集的核心是转录本生物类型,这是GENCODE数据库提供的分类信息。此外,数据集还包含了一系列基于转录本序列计算的特征,主要通过Biopython库获得。这些特征分为两类:
1. 转录本序列特征:包括密码子适应性指数(Codon Adaptation Index)和校验和(Checksum)。
2. 蛋白质特征:基于DNA翻译后的氨基酸序列计算得到,包括疏水性、等电点、芳香性、不稳定性、分子量、二级结构百分比(螺旋、转角、折叠)以及摩尔消光系数(氧化态和还原态)。
数据用途概述:
该数据集主要用于生物信息学研究、机器学习模型的训练和评估。具体应用场景包括:
* 基因表达调控研究:分析不同生物类型转录本的表达模式。
* 蛋白质结构与功能预测:利用蛋白质特征预测蛋白质的结构和功能。
* 生物标志物发现:寻找与特定疾病相关的生物标志物。
* 机器学习入门:适合初学者使用决策树分类器进行数据分析和模型构建。
* 教育与科研:用于教学、科研项目,例如基因组学、蛋白质组学和生物信息学课程。