格拉茨合成临床文本受保护健康信息标注数据集

数据集概述

该数据集包含人工生成的德语半结构化与非结构化临床摘要,附有用INCEpTION平台标注的受保护健康信息(PHI),含标注文件、类型系统及指南文档,为临床文本去标识研究提供支持。

文件详解

  • 标注文件:
  • grascco_phi_annotation_json.zip: ZIP格式,包含JSON格式的PHI标注数据
  • grascco_phi_annotation_xmi.zip: ZIP格式,包含XMI格式的PHI标注数据
  • 配置文件:
  • layer_inception-gemtex-deid-base_project-grascco.json: JSON格式,定义PHI标注类型(含姓名、日期、联系方式等20+类PHI标签)
  • TypeSystem.xml: XML格式,INCEpTION平台导入所需的类型系统配置
  • 文档文件:
  • _Annoguide_GeMTeXDeID.pdf: PDF格式,GeMTeX项目去标识任务的标注指南

数据来源

Zenodo

适用场景

  • 临床自然语言处理研究: 用于训练与评估德语临床文本的PHI识别模型
  • 医疗数据隐私保护: 研究自动化去标识技术在德语医疗文档中的应用效果
  • 标注工具配置参考: 为INCEpTION平台进行类似医疗文本标注提供配置模板
  • 医学信息学教学: 作为临床文本隐私保护相关课程的实践数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.6 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。