基因表达-合成疾病-基因识别研究数据集

基因表达-合成疾病-基因识别研究数据集 数据来源:互联网公开数据
标签:基因表达,合成疾病,特征识别,机器学习,基因组学,生物信息学,数据挖掘

数据概述:
本数据集基于E-MTAB-3732数据库,包含27,887个样本的基因表达数据,涵盖健康个体、疾病患者(包括癌症)和细胞系。数据集生成了三个合成疾病,每个疾病通过10个预定义的基因变量(索引为1486、7201、19287、27461、28578、29884、30555、34271、37922、41109)模拟了不同的生物学关系。每个样本被标记为健康(控制,目标值为0)或患病(案例,目标值为1)。

数据用途概述:
该数据集适用于基因识别算法开发、特征选择研究、机器学习模型训练和验证、以及合成疾病模型的构建与分析。研究人员可利用此数据集评估算法在复杂基因表达数据中的表现,探索基因与疾病之间的潜在关联,或开发新的生物标记物识别方法。此外,数据集也可用于教育培训,帮助研究者理解基因表达数据分析的挑战和解决方案。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 10:20 (UTC)
创建于 四月 15, 2025, 10:20 (UTC)