CREMSA_Based_论文补充数据集_生物信息学_2025

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

CREMSA_Based_论文补充数据集_生物信息学_2025

数据集概述

本数据集为论文“CREMSA: Compressed indexing of (ultra) large alignments”的补充数据，包含三个用于验证研究可重复性的数据集：人工生成的随机数据集、HIV1基因组多序列比对数据集和主要促进子超家族蛋白质序列比对数据集。

文件详解

random_datasets_n10000_m30000.zip
文件格式：ZIP
内容说明：按论文描述生成的人工数据集，用于模拟测试场景
HIV1_ALL_2022_genome_DNA.fasta.xz
文件格式：XZ压缩FASTA
内容说明：包含五千三百八十一条HIV1基因组的多序列比对数据，2025年3月取自洛斯阿拉莫斯国家实验室
MFS_1.fasta.xz
文件格式：XZ压缩FASTA
内容说明：包含二十一万四千二百八十三条主要促进子超家族（MFS）蛋白质序列的多序列比对数据，2025年3月取自Pfam数据库

数据来源

论文“CREMSA : Compressed indexing of (ultra) large alignments”

适用场景

生物信息学算法验证: 用于检验CREMSA压缩索引方法在不同规模序列比对数据上的性能
基因组学研究: 支持HIV1基因组序列的比对分析和特征提取
蛋白质组学研究: 辅助主要促进子超家族蛋白质序列的结构与功能分析
大规模生物数据处理: 为超大型序列比对数据的压缩存储与高效检索提供测试基准

数据与资源

15094594.zipZIP
615.66 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	615.66 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？