单细胞多模态数据集-基因表达与染色质可及性-2023-cameronmacpherson
数据来源:互联网公开数据
标签:单细胞,基因表达,染色质可及性,机器学习,生物医学,细胞类型,聚类分析
数据概述:
本数据集包含来自单细胞RNA测序(scRNA-seq)和染色质可及性测序(scATAC-seq)的多模态数据,测量了同一细胞中的基因表达和染色质可及性。数据集涵盖了约4500个细胞,每个细胞有20,000个编码蛋白基因的表达量测量以及数百万个染色质可及性峰的测量结果。由于单细胞RNA和ATAC-seq协议的稀疏性,数据中零计数的比例较高。基因表达数据被视为将细胞分类为细胞类型的最佳选择,可作为分类的金标准。
数据集包括质量过滤后的数据,包含命名基因和识别的ATAC峰的计数及标准化版本,以及从同一scATAC-seq数据集中派生的基因活性数据(计数及标准化计数),可作为RNA-seq的代理。对于研究任务4,也可提供未经过滤的scATAC和scRNA数据。
数据集大小约为3GB,包括预处理的scATAC和基因活性数据。此外,原始scATAC片段数据约为2GB。建议提供至少10GB的空间以容纳数据及其开销。
数据用途概述:
该数据集适用于单细胞数据聚类分析、细胞类型识别、机器学习方法开发等场景。研究人员可以利用该数据集进行染色质可及性和基因表达数据的聚类分析,比较不同方法的效果,并探索数据预处理和过滤对结果的影响。此外,可用于研究稀有细胞类型对聚类结果的影响,以及基因活性是否可以作为RNA-seq的代理。
任务概述:
1. 基于单细胞染色质可及性数据,将细胞分配到正确的细胞类型。
2. 基于单细胞基因表达数据(scRNA-seq),将细胞分配到正确的细胞类型。
3. 比较基于染色质可及性和基于基因表达的聚类结果。
4. 研究方法相对于数据预处理和过滤的稳健性。
5. 探索方法如何处理稀有细胞类型。
6. 研究基因活性是否可以作为RNA-seq的代理。
该数据集适用于机器学习在生物医学研究中的应用,对细胞类型识别和多模态数据分析具有重要价值。