Kaggle训练集野生型氨基酸表面面积数据集-cdeotte
数据来源:互联网公开数据
标签:Kaggle,训练集,氨基酸,表面面积,CIF,PDB,科学计算,生物信息学
数据概述:
本数据集包含73个Kaggle训练集中野生型氨基酸的表面面积信息。这些数据由Robert Hatch从相关资源中收集,并由GreySnow提供相应的CIF文件。随后,通过代码将CIF文件转换为PDB格式。接着,Rope on Mars计算了这些PDB文件中氨基酸的表面面积,并上传了文本文件。最后,这些文本文件被转换为CSV格式,并上传到当前的数据集中。
数据集字段包括:
- 序列标识符:标识氨基酸序列的唯一编号
- 氨基酸类型:氨基酸的具体类型(如A、C、D等)
- 表面积:氨基酸的表面面积值
数据来源包括Kaggle的训练集、Robert Hatch的收集、GreySnow的CIF文件、转换代码、Rope on Mars的计算结果。
数据用途概述:
该数据集适用于生物信息学研究、蛋白质结构分析、氨基酸特性研究等场景。研究人员可以利用此数据集进行氨基酸表面面积的统计分析,比较不同氨基酸的表面特性和蛋白质结构的特性。教育者和学生可以使用此数据集进行生物信息学教学和学习,加深对氨基酸及其表面特性的理解。此外,该数据集还适用于数据可视化和机器学习算法的开发,为相关领域的研究和应用提供有力的数据支持。