Kaggle训练集野生型氨基酸表面面积数据集-cdeotte

Kaggle训练集野生型氨基酸表面面积数据集-cdeotte 数据来源:互联网公开数据 标签:Kaggle,训练集,氨基酸,表面面积,CIF,PDB,科学计算,生物信息学 数据概述: 本数据集包含73个Kaggle训练集中野生型氨基酸的表面面积信息。这些数据由Robert Hatch从相关资源中收集,并由GreySnow提供相应的CIF文件。随后,通过代码将CIF文件转换为PDB格式。接着,Rope on Mars计算了这些PDB文件中氨基酸的表面面积,并上传了文本文件。最后,这些文本文件被转换为CSV格式,并上传到当前的数据集中。

数据集字段包括:

  • 序列标识符:标识氨基酸序列的唯一编号
  • 氨基酸类型:氨基酸的具体类型(如A、C、D等)
  • 表面积:氨基酸的表面面积值

数据来源包括Kaggle的训练集、Robert Hatch的收集、GreySnow的CIF文件、转换代码、Rope on Mars的计算结果。

数据用途概述: 该数据集适用于生物信息学研究、蛋白质结构分析、氨基酸特性研究等场景。研究人员可以利用此数据集进行氨基酸表面面积的统计分析,比较不同氨基酸的表面特性和蛋白质结构的特性。教育者和学生可以使用此数据集进行生物信息学教学和学习,加深对氨基酸及其表面特性的理解。此外,该数据集还适用于数据可视化和机器学习算法的开发,为相关领域的研究和应用提供有力的数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.3 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。