OpenChart_SE瑞典人工电子健康记录语料库版本1

数据集概述

该数据集为OpenChart-SE语料库版本1,包含五十份由瑞典医师和医学生撰写的人工电子健康记录(EHR),模拟瑞典急诊科真实病历风格,经专业医师审核,用于推动瑞典语临床自然语言处理工具开发。

文件详解

  • 人工病历文件(共五十个):
  • 文件名称:以数字命名的txt文件(如5.txt、11.txt等)
  • 文件格式:TXT(.txt)
  • 内容示例:包含患者主诉、性别、年龄、既往病史、现病史等结构化信息(如“id: 37 sokorsak: BukSmarta kon: K alder: 29”)
  • 结构化数据文件:
  • 文件名称:dataset.csv
  • 文件格式:CSV(.csv)
  • 字段示例:id(病历编号)、sokorsak(主诉)、kon(性别)、alder(年龄)、aktuellt(现病史)、bedomning(诊断)等
  • 变量说明文件:
  • 文件名称:codebook.xlsx
  • 文件格式:XLSX(.xlsx)
  • 内容:采用XLSForm格式,包含数据集中各变量的详细说明
  • 辅助文档:
  • 文件名称:suppl_data_1_openchart-se_form.pdf
  • 文件格式:PDF(.pdf)
  • 内容:OpenChart-SE模拟急诊科病历表单模板
  • 数据分析代码文件:
  • 文件名称:suppl_data_3_openchart-se_dataexploration.ipynb
  • 文件格式:Jupyter Notebook(.ipynb)
  • 内容:语料库分析的代码及结果
  • 许可文件:
  • 文件名称:LICENSE.md
  • 文件格式:MD(.md)
  • 内容:数据集开源许可说明

适用场景

  • 瑞典语临床自然语言处理工具开发:用于训练和测试病历文本分类、实体识别等模型
  • 医疗数据隐私保护研究:探索人工病历在替代真实敏感数据中的应用价值
  • 临床数据标准化分析:对比人工病历与真实病历的格式差异及处理难点
  • 医学教育资源建设:为瑞典医学生提供标准化病历书写参考案例
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.97 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。