数据集概述
本数据集包含用于构建biofactoid.org接地搜索服务Elasticsearch索引的必要文件,由elasticdump npm包生成,共三个JSON文件,无目录结构,可直接用于填充Elasticsearch索引,支持生物信息学领域的实体接地检索功能。
文件详解
- 文件名称:groundingsearch_analyzer.json
- 文件格式:JSON
- 字段映射介绍:描述Elasticsearch索引的分析器配置,用于定义文本处理规则
- 文件名称:groundingsearch_mapping.json
- 文件格式:JSON
- 字段映射介绍:定义索引的映射结构,顶级键为"groundingsearch",包含字段类型、分词方式等元数据
- 文件名称:groundingsearch_data.json
- 文件格式:JSON
- 字段映射介绍:存储接地搜索服务的核心数据内容,用于索引的实际数据填充
数据来源
https://github.com/PathwayCommons/grounding-search
适用场景
- 生物信息学实体接地:支持生物医学术语、通路、基因等实体的标准化匹配与检索
- Elasticsearch索引部署:快速搭建biofactoid.org接地搜索服务的Elasticsearch环境
- 生物数据检索优化:用于测试和调整生物信息检索系统的分析器与映射策略
- 生物知识图谱构建:为生物实体关联分析提供标准化的实体接地基础数据