数据集概述
本数据集围绕SPREAD算法展开,该算法用于设计信息最大化的全交叉交配实验,通过最大化性状多样性(如遗传和地理距离)筛选交配组合。数据集包含算法实现代码、实验数据及模拟结果,以Neurospora crassa菌株为实例验证算法效果,共10个文件。
文件详解
- 文档文件
- 文件名称:README_for_all_matings_spore_simulations.txt、README_for_SPREAD_Rdata.txt
- 文件格式:TXT
- 字段映射介绍:说明数据集内容、文件结构及使用方法,包括压缩文件SPREAD_Rdata.zip的内部数据说明
- 数据文件
- 文件名称:strain_mating_type.csv、all_matings_distance.csv、all_matings_spore_simulations.csv
- 文件格式:CSV
- 字段映射介绍:
- strain_mating_type.csv:包含FGSC(菌株编号)、mat(交配型)字段
- all_matings_distance.csv:包含FGSC1、FGSC2(配对菌株编号)、GeneticDistance(遗传距离)、GeographicDistance(地理距离)字段
- 代码文件
- 文件名称:Table1_SPREAD.R、Figure3_Table2_SPREAD.R、Figure4_SPREAD.R、Figure2_SPREAD.R
- 文件格式:R
- 字段映射介绍:用于生成论文中图表和表格的R代码,实现SPREAD算法及结果分析
- 压缩文件
- 文件名称:SPREAD_Rdata.zip
- 文件格式:ZIP
- 字段映射介绍:包含spread_simulations.Rdata(含max_MMNND、k_s、sample_size、sim_number字段的模拟数据)、MMNND_glmm_results_total_asco_meanCenter.rdata(GLMM模型结果数据)
数据来源
论文“Selection of Pairings Reaching Evenly Across the Data (SPREAD): a simple algorithm to design maximally informative fully crossed mating experiments”
适用场景
- 交配实验设计优化:利用SPREAD算法筛选遗传与地理多样性最大化的交配组合,提升实验信息量
- 菌株遗传多样性分析:通过all_matings_distance.csv数据研究Neurospora crassa菌株的遗传与地理距离分布
- 算法性能验证:对比SPREAD算法与随机选择交配组合的参数估计效果,验证算法有效性
- 实验模拟与结果复现:使用SPREAD_Rdata.zip中的模拟数据及R代码复现论文图表与分析结果