数据集概述
本数据集包含2009-2010至2022-2023学年西班牙MIR考试中提取的145道风湿病相关问题,记录了ChatGPT、GPT-4、BARD、CLAUDE对问题的评估结果,以及六位风湿病学家对ChatGPT和GPT-4临床推理能力的评价,为医学考试AI评估研究提供支撑。
文件详解
- 文件名称:RheumaMIR.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含145道西班牙MIR考试风湿病问题、ChatGPT/GPT-4/BARD/CLAUDE的评估结果,以及六位风湿病学家对ChatGPT和GPT-4临床推理能力的专业评价内容(具体字段以文件内Sheet结构为准)
数据来源
论文“Harnessing ChatGPT and GPT-4 for Evaluating the Rheumatology Questions of the Spanish Access Exam to Specialized Medical Training”
适用场景
- 医学AI评估研究:分析ChatGPT、GPT-4等大语言模型在风湿病考试问题中的评估性能与临床推理能力
- 医学教育考试优化:为西班牙MIR考试风湿病科目命题与评估体系改进提供数据参考
- 临床推理能力研究:通过风湿病学家评价数据,探究AI模型临床推理能力的优势与不足
- 多模型对比分析:对比不同大语言模型在医学专业问题评估任务中的表现差异