数据集概述
本数据集为论文“Pan-microalgal dark proteome mapping via interpretable deep learning and synthetic chimeras”的补充表格,包含LA4SR框架的性能指标、序列归因分析、关键基序发现及与传统工具的对比结果,用于支持微生物蛋白质分类研究及暗蛋白质组分析。
文件详解
- Table S1:LA4SR性能指标表
- 文件名称:TABLE_S1-Perf-recall-speed-19AUG2025.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含LA4SR性能指标、技术性能估计、BLAST结果及藻类训练数据基因组的运行时间
- Table S2:Captum序列归因表
- 文件名称:TABLE_S2-Captum_output_07MAY2025.xlsx
- 文件格式:XLSX
- 字段映射介绍:使用LayerIntegratedGradients函数获得的100条藻类和细菌来源序列的Captum归因数据
- Table S3:DeepMotifMinerPro基序发现表
- 文件名称:TABLE_S3-DMMP_29MAY2025.xlsx
- 文件格式:XLSX
- 字段映射介绍:通过DeepMotifMinerPro软件发现的影响性基序数据
- Table S4:LA4SR与Diamond BLAST对比结果表
- 文件名称:TABLE_S4-ExtraVal-12JUL2025.xlsx
- 文件格式:XLSX
- 字段映射介绍:LA4SR和Diamond BLAST对已知物种新组装数据、未知属污染组装数据、未知属清洁组装数据的分析结果
数据来源
论文“Pan-microalgal dark proteome mapping via interpretable deep learning and synthetic chimeras”
适用场景
- 微生物蛋白质分类研究:利用LA4SR框架的性能数据,研究非模式生物和环境微生物的蛋白质分类方法
- 暗蛋白质组分析:通过序列特征分析,探索未分类的“暗蛋白质组”成分
- 基因组学工具优化:对比LA4SR与传统工具(如BLASTP)的性能,优化基因组学数据分析流程
- 微生物群落研究:分析复杂微生物群落和宏基因组数据,揭示进化和生态特征
- 深度学习模型应用:探索语言模型在加速基因组学工作流和发现生物学新见解中的应用