数据集概述
该数据集为OpenChart-SE语料库版本1,包含五十份由瑞典医师和医学生撰写的人工电子健康记录(EHR),模拟瑞典急诊科真实病历风格,经专业医师审核,用于推动瑞典语临床自然语言处理工具开发。
文件详解
- 人工病历文件(共五十个):
- 文件名称:以数字命名的txt文件(如5.txt、11.txt等)
- 文件格式:TXT(.txt)
- 内容示例:包含患者主诉、性别、年龄、既往病史、现病史等结构化信息(如“id: 37 sokorsak: BukSmarta kon: K alder: 29”)
- 结构化数据文件:
- 文件名称:dataset.csv
- 文件格式:CSV(.csv)
- 字段示例:id(病历编号)、sokorsak(主诉)、kon(性别)、alder(年龄)、aktuellt(现病史)、bedomning(诊断)等
- 变量说明文件:
- 文件名称:codebook.xlsx
- 文件格式:XLSX(.xlsx)
- 内容:采用XLSForm格式,包含数据集中各变量的详细说明
- 辅助文档:
- 文件名称:suppl_data_1_openchart-se_form.pdf
- 文件格式:PDF(.pdf)
- 内容:OpenChart-SE模拟急诊科病历表单模板
- 数据分析代码文件:
- 文件名称:suppl_data_3_openchart-se_dataexploration.ipynb
- 文件格式:Jupyter Notebook(.ipynb)
- 内容:语料库分析的代码及结果
- 许可文件:
- 文件名称:LICENSE.md
- 文件格式:MD(.md)
- 内容:数据集开源许可说明
适用场景
- 瑞典语临床自然语言处理工具开发:用于训练和测试病历文本分类、实体识别等模型
- 医疗数据隐私保护研究:探索人工病历在替代真实敏感数据中的应用价值
- 临床数据标准化分析:对比人工病历与真实病历的格式差异及处理难点
- 医学教育资源建设:为瑞典医学生提供标准化病历书写参考案例