数据集概述
该数据集包含人类基因的NCBI及UniProt(如适用)摘要文本,以及基于这些摘要通过OpenAI的text-embedding-ada-002和text-embedding-3-large模型生成的基因嵌入数据,为基因与细胞基础模型GenePT提供支持。
文件详解
- 文件名称: NCBI_summary_of_genes.json
- 文件格式: JSON
- 内容: 人类基因的NCBI基因卡片摘要数据
- 文件名称: NCBI_UniProt_summary_of_genes.json
- 文件格式: JSON
- 内容: 人类基因的NCBI基因卡片及UniProt蛋白质(如适用)的合并摘要数据
- 文件名称: GenePT_gene_embedding_ada_text.pickle
- 文件格式: Pickle
- 内容: 字典结构数据,键为大写基因名称,值为基于NCBI摘要通过text-embedding-ada-002模型生成的numpy数组嵌入
- 文件名称: GenePT_gene_protein_embedding_model_3_text.pickle
- 文件格式: Pickle
- 内容: 字典结构数据,键为大写基因名称,值为基于NCBI-UniProt合并摘要通过text-embedding-3-large模型生成的numpy数组嵌入
适用场景
- 基因功能注释研究: 利用基因嵌入分析基因功能关联与注释
- 细胞生物学研究: 支持细胞类型识别或细胞状态分析的基础模型构建
- 生物信息学算法开发: 用于基因相关机器学习模型的特征工程
- 基因表达数据分析: 辅助基因表达谱的聚类与差异分析