数据集概述
本数据集为论文“CREMSA: Compressed indexing of (ultra) large alignments”的补充数据,包含三个用于验证研究可重复性的数据集:人工生成的随机数据集、HIV1基因组多序列比对数据集和主要促进子超家族蛋白质序列比对数据集。
文件详解
- random_datasets_n10000_m30000.zip
- 文件格式:ZIP
- 内容说明:按论文描述生成的人工数据集,用于模拟测试场景
- HIV1_ALL_2022_genome_DNA.fasta.xz
- 文件格式:XZ压缩FASTA
- 内容说明:包含五千三百八十一条HIV1基因组的多序列比对数据,2025年3月取自洛斯阿拉莫斯国家实验室
- MFS_1.fasta.xz
- 文件格式:XZ压缩FASTA
- 内容说明:包含二十一万四千二百八十三条主要促进子超家族(MFS)蛋白质序列的多序列比对数据,2025年3月取自Pfam数据库
数据来源
论文“CREMSA : Compressed indexing of (ultra) large alignments”
适用场景
- 生物信息学算法验证: 用于检验CREMSA压缩索引方法在不同规模序列比对数据上的性能
- 基因组学研究: 支持HIV1基因组序列的比对分析和特征提取
- 蛋白质组学研究: 辅助主要促进子超家族蛋白质序列的结构与功能分析
- 大规模生物数据处理: 为超大型序列比对数据的压缩存储与高效检索提供测试基准