CREMSA_Based_论文补充数据集_生物信息学_2025

数据集概述

本数据集为论文“CREMSA: Compressed indexing of (ultra) large alignments”的补充数据,包含三个用于验证研究可重复性的数据集:人工生成的随机数据集、HIV1基因组多序列比对数据集和主要促进子超家族蛋白质序列比对数据集。

文件详解

  • random_datasets_n10000_m30000.zip
  • 文件格式:ZIP
  • 内容说明:按论文描述生成的人工数据集,用于模拟测试场景
  • HIV1_ALL_2022_genome_DNA.fasta.xz
  • 文件格式:XZ压缩FASTA
  • 内容说明:包含五千三百八十一条HIV1基因组的多序列比对数据,2025年3月取自洛斯阿拉莫斯国家实验室
  • MFS_1.fasta.xz
  • 文件格式:XZ压缩FASTA
  • 内容说明:包含二十一万四千二百八十三条主要促进子超家族(MFS)蛋白质序列的多序列比对数据,2025年3月取自Pfam数据库

数据来源

论文“CREMSA : Compressed indexing of (ultra) large alignments”

适用场景

  • 生物信息学算法验证: 用于检验CREMSA压缩索引方法在不同规模序列比对数据上的性能
  • 基因组学研究: 支持HIV1基因组序列的比对分析和特征提取
  • 蛋白质组学研究: 辅助主要促进子超家族蛋白质序列的结构与功能分析
  • 大规模生物数据处理: 为超大型序列比对数据的压缩存储与高效检索提供测试基准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 615.66 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。