疾病本体术语与维基数据多语言映射数据集2020

数据集概述

本数据集包含2020年2月13日通过维基数据查询服务获取的1000个疾病本体术语及其维基数据映射,覆盖英语及印地语、孟加拉语等十七种主要印度语言,旨在评估非英语语言疾病相关术语的覆盖进展。

文件详解

  • SPARQL.txt:文本格式,存储用于获取数据的SPARQL查询语句,包含疾病本体ID筛选、多语言标签获取等查询逻辑。
  • query.csv:CSV格式,包含多语言标签数据,字段包括术语条目、英语标签、英语维基百科标题、印地语标签、孟加拉语标签等十七种语言标签及站点链接数。
  • query.tsv:TSV格式,内容与query.csv一致,字段映射相同。
  • query.html:HTML格式,查询结果的网页展示文件。
  • query.json.txt:文本格式,查询结果的JSON数据(因上传问题重命名)。

适用场景

  • 医学术语标准化研究:分析多语言疾病术语的覆盖现状与差异。
  • 维基数据内容评估:评估非英语语言疾病相关数据的完整性与进展。
  • 多语言医疗资源建设:为印度地区多语言医疗信息平台提供术语映射基础。
  • 语义网数据应用:支持基于疾病本体与维基数据的跨语言语义查询与关联分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.35 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。