数据集概述
本数据集包含用于NEFFy分析的多序列比对(MSA)数据,分为CASP15蛋白质数据集和rMSA RNA数据集两部分。其中CASP15数据集含93个蛋白质靶标的MSA,基于AlphaFold 2.3代码生成;rMSA数据集含361个RNA靶标的MSA,通过rMSA流程生成,总计2个压缩文件。
文件详解
- CASP15 MSAs (aln format).zip
- 文件格式:ZIP(压缩包)
- 内容说明:包含CASP15蛋白质数据集的多序列比对文件,内部文件格式为aln(序列比对格式),对应93个蛋白质靶标的MSA数据。
- rMSA MSAs.zip
- 文件格式:ZIP(压缩包)
- 内容说明:包含rMSA RNA数据集的多序列比对文件,对应361个RNA靶标的MSA数据,由rMSA pipeline生成。
适用场景
- 蛋白质结构预测研究:利用CASP15蛋白质MSA数据,支持基于AlphaFold框架的蛋白质结构预测模型训练与验证。
- RNA结构分析:通过rMSA RNA数据集,开展RNA序列比对与二级/三级结构预测相关研究。
- 生物信息学算法评估:用于NEFFy分析或其他序列比对算法的性能测试与优化。
- 分子生物学多序列比对研究:为蛋白质与RNA的序列保守性、进化关系分析提供基础数据支持。