数据集概述
本数据集包含基于Phenopackets生成的多语言基因医学案例集,支持捷克语、中文、荷兰语、英语、德语、意大利语、日语、西班牙语和土耳其语共9种语言,用于LLM研究,会随Phenopacket Store更新自动同步最新HPO翻译和案例数据。
文件详解
- 压缩文件(ZIP)
- 文件名称:original_phenopackets.zip、cs.zip、es.zip、tr.zip、it.zip、de.zip、zh.zip、ja.zip等
- 文件格式:ZIP
- 字段映射介绍:包含原始Phenopackets数据及对应语言(捷克语、西班牙语、土耳其语、意大利语、德语、中文、日语等)的基因医学案例数据
- 结果文件(TSV)
- 文件名称:correct_results.tsv
- 文件格式:TSV
- 字段映射介绍:包含基因医学案例信息,如疾病名称(Multiple self-healing squamous epithelioma)、OMIM编号、PMID编号及对应的案例文本文件名称等
数据来源
Phenopacket Store
适用场景
- LLM多语言医疗文本处理研究: 用于训练和评估大语言模型对多语言基因医学文本的理解与生成能力
- 基因医学案例标准化研究: 分析基于Phenopackets生成的标准化案例与临床实际描述的匹配度
- 医疗术语跨语言映射研究: 探索不同语言基因医学术语的对应关系及翻译准确性
- 自动更新数据集构建研究: 参考本数据集自动同步上游资源的机制,开发类似动态更新的医疗数据集