-
ELMTEX_Based_临床报告结构化信息抽取大语言模型微调数据集
2026年1月23日 30 82 38
数据集概述 本数据集为ELMTEX项目相关论文配套数据,用于大语言模型在结构化临床信息抽取任务中的微调。包含英文和德文两种语言的训练与测试文件,总计四个JSON格式文件,无目录层级结构,文件类型统一为JSON格式。 文件详解 英文训练文件 文件名称:train_en.json 文件格式:JSON 字段映射介绍:用于大语言模型微调的英文临床报告训练数据...
-
PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1
2026年1月22日 30 202 175
数据集概述 本数据集为西班牙临床病例语料库(SPACCC)的句子分割标注第一版,由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件,无目录层级,无训练/测试、数据/标签等分割,可用于西班牙语临床文本的句子分割任务研究与模型训练。 文件详解 文件名称:SPACCC_SPLIT.zip 文件格式:ZIP...
-
MeSDiCon_CodiEsp子集_西班牙临床文本疾病症状术语映射数据集
2025年12月22日 30 100 84
数据集概述 该数据集是MeSDiCon资源的子集,包含西班牙临床文本中疾病和症状术语的映射数据。通过UMLS Metathesaurus将MeSDiCon中的MESH术语进一步关联到ICD10-CM和ICD10-PCS编码,为西班牙语临床文本的自动疾病/症状检测及医学文本分类提供标准化术语映射支持。 文件详解 压缩文件:...
-
医疗保健领域公平机器学习算法设计与实现的挑战和局限数据集
2025年12月20日 30 5 4
数据集概述 本数据集围绕医疗保健领域公平机器学习算法的设计与实现挑战展开,包含Python程序文件、参考文献CSV、文章用图片及Python生成的文本语料,为研究医疗AI公平性问题提供数据与代码支持。 文件详解 代码文件(.ipynb格式,共3个): word_cloud.ipynb:用于生成词云的Python代码文件...
-
公开可用的高质量真实医疗文本数据集
2025年12月19日 30 122 104
数据集概述 本数据集包含公开可用的日语医疗文本记录(病程记录),由众包工作者和医生生成,确保隐私安全,采用CC BY-NC 4.0协议授权,为医疗文本相关研究提供高质量数据支持。 文件详解 文件名称: crowd.zip 文件格式: ZIP压缩包 内容说明: 包含九千七百五十六条由众包工作者撰写的模拟病程记录 文件名称:...
-
Auto_Corpus_2_0_标准化临床文献与补充材料数据集
2025年12月11日 30 118 24
数据集概述 本数据集为Auto-Corpus的2.0版本,包含标准化处理的临床文献及补充材料,新增句子拆分等特征,以单份PDF文档形式呈现,为临床文本相关研究提供结构化数据支持。 文件详解 文件名称: FAIRClinical D2.3 - Release of version 2 of the clinical supplementary...
-
西班牙临床病例语料库词性标注数据集
2025年12月10日 30 12 8
数据集概述 该数据集是西班牙临床病例语料库(SPACCC)的首个词性标注版本,由基于FreeLing3.1的SPACCC_POS-TAGGER工具完成标注,为临床文本的词性分析提供结构化数据支持。 文件详解 文件名称: SPACCC_POS.zip 文件格式: ZIP压缩包(.zip) 内容说明:...



