细胞多模态单细胞集成特征数据集-2022-alexandervc

细胞多模态单细胞集成特征数据集-2022-alexandervc 数据来源:互联网公开数据 标签:单细胞测序,CITE-seq,多模态分析,特征工程,机器学习,PCA,MLP,细胞生物学,生物信息学

数据概述: 本数据集包含2274个用于细胞多模态单细胞集成的特征,这些特征来自于CITE-seq(单细胞转录组和表观基因组测序)数据,是Kaggle竞赛“Open Problems - Multimodal”中的一个部分。数据集旨在改进PCA100特征用于MLP(多层感知机)模型(使用sklearn库),通过更有效的特征工程提升模型性能。

数据集来源于Kaggle用户“visualcomments”的代码实现,具体链接为https://www.kaggle.com/code/visualcomments/mmscel-crossvalidation-schemes。数据集中的特征是从大规模单细胞测序数据中提取的多模态信息,包括转录组和表观基因组数据,能够捕捉细胞的多种分子特征。

数据用途概述: 该数据集适用于单细胞多模态数据分析、特征工程优化、机器学习模型训练与评估等多个场景。研究人员可以利用此数据集进行单细胞测序数据的集成分析,探索不同分子特征之间的关联;生物信息学家可以基于数据集开发新的特征提取方法;此外,数据集也适合用于教学和培训,帮助学生和研究人员理解单细胞多模态数据的处理与分析流程。通过改进的PCA100特征,研究人员能够提升MLP模型的性能,更好地预测细胞类型和状态。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 858.95 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。