数据集概述
该数据集是植物LTR反转录转座子的半 curated 参考库,包含来自195个植物基因组(108个物种)的130,511个元件,经谱系级分类后形成非冗余版本含67,305个元件,支持机器学习方法的免比对分类研究。
文件详解
- 冗余版本文件:InpactorDB_redundant_final_V5.zip,格式为ZIP压缩包,包含130,511个LTR反转录转座子元件序列,序列标识符遵循"Superfamily-Lineage-plant_family-specie-source-length-ID"规则
- 非冗余版本文件:InpactorDB_non_redundant_final_V5.zip,格式为ZIP压缩包,包含67,305个经过滤后的完整LTR反转录转座子元件序列,序列标识符规则同上
适用场景
- 植物基因组学研究:用于识别和注释新测序植物基因组中的LTR反转录转座子
- 机器学习模型训练:支持开发基于深度学习的LTR反转录转座子谱系级分类工具
- 比较基因组学分析:研究不同植物物种中LTR反转录转座子的谱系分布特征
- 转座子功能研究:为分析LTR反转录转座子对植物基因组结构和功能的影响提供参考数据