人类转录本生物类型与蛋白质特征数据集-astrabertelli

人类转录本生物类型与蛋白质特征数据集-astrabertelli 数据来源:互联网公开数据 标签:人类基因组,转录组,生物信息学,蛋白质组学,生物特征,基因表达,生物类型,蛋白质特性,机器学习 数据概述: 本数据集包含了从GENCODE数据库下载并预处理的人类转录本信息。数据集的核心是转录本生物类型,这是GENCODE数据库提供的分类信息。此外,数据集还包含了一系列基于转录本序列计算的特征,主要通过Biopython库获得。这些特征分为两类: 1. 转录本序列特征:包括密码子适应性指数(Codon Adaptation Index)和校验和(Checksum)。 2. 蛋白质特征:基于DNA翻译后的氨基酸序列计算得到,包括疏水性、等电点、芳香性、不稳定性、分子量、二级结构百分比(螺旋、转角、折叠)以及摩尔消光系数(氧化态和还原态)。

数据用途概述: 该数据集主要用于生物信息学研究、机器学习模型的训练和评估。具体应用场景包括: * 基因表达调控研究:分析不同生物类型转录本的表达模式。 * 蛋白质结构与功能预测:利用蛋白质特征预测蛋白质的结构和功能。 * 生物标志物发现:寻找与特定疾病相关的生物标志物。 * 机器学习入门:适合初学者使用决策树分类器进行数据分析和模型构建。 * 教育与科研:用于教学、科研项目,例如基因组学、蛋白质组学和生物信息学课程。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 20.07 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。