蛋白质ProtBERT深度定位嵌入向量数据集-2021-ratthachat

蛋白质ProtBERT深度定位嵌入向量数据集-2021-ratthachat 数据来源:互联网公开数据 标签:ProtBERT,深度学习,蛋白质定位,嵌入向量,生物信息学,机器学习,嵌入模型,蛋白质结构

数据概述: 本数据集包含了ProtBERT模型生成的嵌入向量,对应于DeepLocalication数据集中的蛋白质序列。ProtBERT是一种基于Transformer架构的预训练蛋白质语言模型,能够在大规模蛋白质序列数据上进行有效的特征提取和表示学习。这些嵌入向量可以用于蛋白质的亚细胞定位预测,帮助研究人员理解蛋白质在细胞内的分布和功能。

数据集中的每个蛋白质序列都对应一个高维嵌入向量,这些向量捕捉了蛋白质序列的语义信息和结构特征。数据集来源于Hugging Face平台上的Rostlab/prot_bert_bfd_localization模型。

数据用途概述: 该数据集适用于蛋白质功能预测、亚细胞定位研究、生物信息学分析等多种场景。研究人员可以利用这些嵌入向量进行蛋白质序列的相似性分析、聚类以及构建蛋白质功能预测模型;生信分析人员可以利用该数据集进行蛋白质结构预测和功能注释;生物医学研究人员则可借助这些向量探索蛋白质在细胞内的定位机制,为疾病机理研究和药物开发提供重要支持。此外,该数据集也适合用于机器学习和深度学习课程中的示例和实践。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 36.46 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。