MedCodER医学编码生成式AI助手数据集

数据集概述

该数据集为MedCodER生成式AI医学编码助手项目提供支持,包含医疗记录文本、诊断编码及相关辅助文件,用于训练和验证AI模型的医学编码能力,为医疗编码自动化研究提供数据基础。

文件详解

  • 数据文件(CSV格式):
  • text.csv:包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件
  • text_holdout.csv:包含文档ID、医疗记录文本的用户实验保留集数据文件
  • diagnosis.csv:包含文档ID、ICD10编码、诊断名称及文本起止位置的诊断编码文件
  • diagnosis_holdout.csv:诊断编码的保留集数据文件
  • supporting_evidence.csv:医学编码相关的辅助证据数据文件
  • 文档文件:
  • Readme.md:数据集说明文档,介绍数据集用途及各文件内容
  • LICENSE-CC-BY-NC-ND-4.0.pdf:CC-BY-NC-ND 4.0授权协议文件

适用场景

  • 医学自然语言处理研究:用于医疗文本分类、实体识别及编码任务
  • 生成式AI模型训练:训练具备医学编码能力的AI助手系统
  • 医疗信息标准化研究:探索医疗记录文本到ICD10编码的映射方法
  • 医疗编码效率提升:开发辅助医疗人员进行编码工作的智能工具
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.76 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。