数据集概述
本数据集对应2020年发表于《Nature Communications》的论文研究内容,包含论文图表的源数据、NGS处理代码和机器学习代码,支持DNA表型记录与序列功能映射的研究验证与复现,共3个文件。
文件详解
- Table 1.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含论文Figs.1d、2c-e、3b/d/e、4b-f、5a-c/e/f及补充图表的源数据,具体字段对应论文图表的实验测量值与统计结果
- uASPIre-master.zip
- 文件格式:ZIP
- 字段映射介绍:包含研究中使用的NGS数据处理代码,对应GitHub仓库github.com/JeschekLab/uASPIre
- SAPIENs-main.zip
- 文件格式:ZIP
- 字段映射介绍:包含研究中使用的机器学习代码,对应GitHub仓库github.com/BorgwardtLab/SAPIENs
数据来源
2020年《Nature Communications》论文“Large-scale DNA-based phenotypic recording and deep learning enable highly accurate sequence-function mapping”
适用场景
- 序列功能映射研究:验证DNA序列与表型功能的映射关系,复现论文中的深度学习模型结果
- 生物信息学方法复现:使用NGS代码处理原始测序数据,复现研究中的数据分析流程
- 机器学习在生物数据中的应用:基于提供的ML代码,探索深度学习在DNA表型数据中的建模方法
- 论文图表数据验证:通过源数据核对论文中图表的实验结果,支持相关研究的延伸分析