数据集概述
本数据集为乳酸菌细菌素序列分类深度学习神经网络开发项目的配套数据,包含软件相关文件、模型训练测试验证文件及附加文件三类,涉及深度学习模型脚本、训练权重、结构文件、序列数据集等,可支持细菌素序列分类模型的复现与应用。
文件详解
- 软件相关文件
- BacLABNet_script.ipynb:IPYNB格式,用于细菌素序列分类的深度学习神经网络脚本
- embed_proteins.py:PY格式,用于获取嵌入向量的循环神经网络脚本
- model_I22.h5:H5格式,包含训练模型的权重文件
- model_I22.json:JSON格式,包含训练模型的结构文件
- rnn_gru.pt:PT格式,用于获取嵌入向量的循环神经网络初始权重文件
- List_kmers.csv:CSV格式,过滤50-2000氨基酸长度序列后得到的5-mer和7-mer列表
- 神经网络训练测试验证文件
- data_nonBacLAB.csv:CSV格式,从Uniprot获取的25000条非乳酸菌细菌素氨基酸序列
- data_BacLAB.csv:CSV格式,从Uniprot获取的24964条乳酸菌细菌素氨基酸序列
- 附加文件
- data_BacLAB_and_nonBacLAB.csv:CSV格式,data_BacLAB.csv与data_nonBacLAB.csv的合并序列文件
- all k.mers list.xlsx:XLSX格式,包含k=3、5、7、15、20的所有k-mer表格
- LICENSE.txt:TXT格式,许可文件
- README.md:MD格式,说明文档
适用场景
- 生物信息分类模型开发:用于乳酸菌细菌素序列分类深度学习模型的构建与优化
- 蛋白质序列分析:通过序列数据集及嵌入向量工具,开展细菌素与非细菌素序列特征研究
- 模型复现与验证:利用模型权重、结构及数据集,复现细菌素序列分类模型并验证性能
- 生物信息算法研究:基于循环神经网络脚本及嵌入向量工具,探索蛋白质序列嵌入方法