数据集概述
本数据集是对Biomappings论文中EFO/Cellosaurus/DepMap/CCLE场景的复现,整合多种细胞与细胞系资源并识别资源间的映射关系。包含31个文件,涵盖原始数据、处理结果、统计信息、可视化图表及使用说明,支持生物医学领域细胞资源映射的复现与分析。
文件详解
- 说明文档
- 文件名称:README.md
- 文件格式:MD
- 字段映射介绍:包含数据集复现方法、使用说明、创建者信息及Zenodo下载链接等内容
- 配置与运行文件
- 文件名称:configuration.json、Dockerfile、run_on_docker.sh、startup.sh
- 文件格式:JSON、Dockerfile、SH、SH
- 字段映射介绍:configuration.json含名称、描述、创建者、输入输出等配置项;Dockerfile及SH文件为容器化运行脚本
- 原始与处理数据文件
- 文件名称:raw.jsonl.gz、edges.tsv.gz、mapping_nodes.tsv.gz、mapping_set_nodes.tsv.gz、priority.jsonl.gz
- 文件格式:GZ
- 字段映射介绍:raw.jsonl.gz为原始数据;edges.tsv.gz为映射关系边数据;mapping_nodes.tsv.gz为映射节点数据;priority.jsonl.gz为优先级配置数据
- 复现结果文件
- 文件名称:reproduction_ccle_depmap_suspicious.tsv、reproduction_ccle_efo_suspicious.tsv、reproduction_ccle_efo.tsv
- 文件格式:TSV
- 字段映射介绍:记录CCLE与DepMap、EFO之间的映射复现结果及可疑映射数据
- 统计与摘要文件
- 文件名称:stats.json、source_summary.tsv
- 文件格式:JSON、TSV
- 字段映射介绍:stats.json含分布、原始/唯一术语数、处理耗时等统计信息;source_summary.tsv为资源映射汇总数据
- 可视化文件
- 文件名称:processed_landscape_histogram.svg、processed_graph.svg、raw_graph.svg、priority_graph.svg
- 文件格式:SVG
- 字段映射介绍:包含映射景观直方图、原始/处理后映射图、优先级映射图等可视化结果
数据来源
Biomappings论文提出的EFO/Cellosaurus/DepMap/CCLE场景复现
适用场景
- 生物医学资源映射分析: 用于识别不同细胞与细胞系资源间的关联关系
- 细胞资源标准化研究: 支持EFO、Cellosaurus等生物医学本体资源的映射标准化工作
- 生物数据复现研究: 复现Biomappings论文中细胞系资源映射场景,验证映射方法有效性
- 生物医学数据可视化: 利用SVG图表分析细胞与细胞系映射的分布特征与网络结构
- 生物信息学工具开发: 基于配置文件与运行脚本,构建细胞资源映射的自动化处理流程