数据集概述
本数据集为ELMTEX项目相关论文配套数据,用于大语言模型在结构化临床信息抽取任务中的微调。包含英文和德文两种语言的训练与测试文件,总计四个JSON格式文件,无目录层级结构,文件类型统一为JSON格式。
文件详解
- 英文训练文件
- 文件名称:train_en.json
- 文件格式:JSON
- 字段映射介绍:用于大语言模型微调的英文临床报告训练数据
- 英文测试文件
- 文件名称:test_en.json
- 文件格式:JSON
- 字段映射介绍:用于大语言模型性能评估的英文临床报告测试数据
- 德文训练文件
- 文件名称:train_de.json
- 文件格式:JSON
- 字段映射介绍:用于大语言模型微调的德文临床报告训练数据
- 德文测试文件
- 文件名称:test_de.json
- 文件格式:JSON
- 字段映射介绍:用于大语言模型性能评估的德文临床报告测试数据
数据来源
论文“ELMTEX: Fine-Tuning Large Language Models for Structured Clinical Information Extraction. A Case Study on Clinical Reports”
适用场景
- 医疗NLP模型训练: 用于大语言模型在临床报告结构化信息抽取任务中的微调与优化
- 多语言临床信息处理研究: 分析英文与德文临床文本在信息抽取任务中的差异与模型跨语言适配性
- 医疗AI应用开发: 支持临床辅助诊断、电子病历自动化处理等医疗AI系统的研发
- 医疗信息抽取技术评估: 作为标准测试集,评估不同模型在临床文本关键信息抽取任务中的性能表现