摩洛哥阿拉伯语医疗问答数据集

数据集概述

该数据集是首个公开的摩洛哥阿拉伯语(Darija)医疗领域问答数据集,包含超十一万四千条标注医疗专科的问答对,覆盖精神病学、心脏病学等二十三个专科,填补了北非低资源方言临床自然语言处理的空白。

文件详解

该数据集由二十四个CSV格式文件组成,按医疗专科分类存储,具体说明如下: - 综合数据文件: - MedQA_MA.csv: CSV格式,包含全部医疗专科的问答数据,字段包括Question(问题)、Answer(答案)、Category(医疗专科类别)。 - 按医疗专科分类的数据文件(位于MedQA-MA Dataset Categorized by Medical Specialty目录下): - 分专科CSV文件,如Allergy_and_Immunology_Medicine.csv、Cardiology_Medicine.csv等,对应二十三个医疗专科类别。 - 字段示例:Question_darija_processesd(处理后的摩洛哥阿拉伯语问题)、Answer_darija_processesd(处理后的摩洛哥阿拉伯语答案)、Category(医疗专科类别)。

适用场景

  • 医疗问答系统开发: 训练摩洛哥阿拉伯语医疗领域的开放/封闭域问答模型。
  • 对话式医疗咨询工具: 构建提供健康建议的对话代理。
  • 医疗文本分类: 开发医疗意图检测与专科分类模型。
  • 医疗命名实体识别: 训练医疗领域命名实体识别模型。
  • 多语言医疗系统优化: 提升多语言医疗自然语言处理系统的泛化能力。
  • 医疗AI公平性研究: 探索阿拉伯语社群医疗AI的公平性与可及性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.84 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。