单细胞扰动机器学习补充计算数据集

单细胞扰动机器学习补充计算数据集

数据来源:互联网公开数据

标签:单细胞扰动,机器学习,特征工程,分子描述符,SMILES指纹,ChemBERTa嵌入,药物发现,生物信息学,人工智能

数据概述: 本数据集包含单细胞扰动实验相关的补充计算数据,旨在支持机器学习模型在单细胞生物数据中的应用研究。数据集包括以下主要内容: 1. 特征工程生成的特征: - 目标编码后PCA降维特征(152维) - 目标PCA后编码特征(1228维) - 独热编码特征(152维) - 分子描述符(167维) - SMILES指纹特征(1024维) - ChemBERTa嵌入特征

  1. 机器学习实验数据:
  2. 多层感知机(MLP)模型评估指标
  3. 交叉验证与公共/私有测试集指标分析

  4. 生物信息数据:

  5. 药物银行(DrugBank)数据(版本5.1.10)
  6. 单细胞基因表达数据(稀疏矩阵格式)

  7. 其他补充数据:

  8. 基因同值化表达特征
  9. 测试集ID映射
  10. 原始计数数据(基因×细胞矩阵)

数据用途概述: 该数据集适用于以下场景: 1. 机器学习模型开发与评估:支持特征工程优化、模型性能评估及模型选择 2. 生物医学研究:支持单细胞扰动分析、基因表达模式识别及药物作用机制研究 3. 药物发现:支持基于机器学习的药物筛选及靶点预测 4. 特征工程研究:支持特征提取、降维及组合方法的探索 5. 生物信息学分析:支持单细胞数据处理、基因功能注释及实验设计优化

数据集为研究人员提供了丰富的特征数据和机器学习实验基准,可用于推动单细胞生物学与人工智能的交叉研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 4, 2025, 19:22 (UTC)
创建于 六月 4, 2025, 19:20 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。