数据集概述
本数据集包含论文《Highly significant improvement of protein sequence alignments with AlphaFold2》的补充表格、图表及数据集压缩包,核心内容围绕AlphaFold2对蛋白质序列比对性能的提升展开,为生物信息学领域相关研究提供数据支持。
文件详解
该数据集由多个文件组成,具体说明如下:
- 表格文件(TSV格式):
- Table1.tsv、Supp_table_1b至Supp_table_5等多个TSV文件,包含对比对性能指标(如GDT-TS、pLDDT、NiRMSD)、运行时间、不同比对工具(如3DCoffee、AlphaFold)的比较数据。
- 字段示例:Family(家族)、Ginsi/TCoffee等比对工具结果、GDT_TS_AF2(AlphaFold2的GDT-TS值)、p-value(显著性值)等。
- 图表文件(PNG格式):
- Fig2、Fig3系列及Supp_Fig1b等PNG图片,展示比对性能指标(如SoP、GDT-TS)的相关性、差异对比等可视化结果。
- 压缩包文件:
- datasets.tar.gz:数据集压缩包,可能包含研究中使用的原始或处理后的数据集。
数据来源
论文《Highly significant improvement of protein sequence alignments with AlphaFold2》(DOI: 10.1093/bioinformatics/btac625)
适用场景
- 生物信息学研究:分析AlphaFold2对蛋白质序列比对准确性的提升效果。
- 计算生物学分析:比较不同比对工具的性能差异及运行效率。
- 蛋白质结构研究:探究结构相关指标(如pLDDT、GDT-TS)与比对质量的关联。
- 学术论文复现:支持基于该研究的结果验证与扩展分析。