数据集

多语言医学问答数据集MedQA-4K数据集

多语言医学问答数据集MedQA-4K数据集数据来源：互联网公开数据标签：医学,问答,多语言,自然语言处理,机器学习,英语,中文,韩语,医疗,数据集数据概述：本数据集源于MedQA数据集，并精心挑选了多选题形式的医学问题。该数据集专为多语言自然语言处理和微调语言模型而设计。

关键特征：语言分布：该数据集包含以下每种语言的1,000个随机抽样问题：英语（美国）：从原始数据集中选取。简体中文：从中国大陆子集中选取。繁体中文：从台湾子集中选取。韩语补充：为了扩展数据集的多语言能力，使用谷歌翻译器添加了英语问题和答案的韩语翻译。平衡和随机抽样：对于每种语言，问题都是从各自的子集中随机抽样的，以确保多样性和公平性。

数据用途概述：该数据集适用于：训练和微调多语言语言模型。探索医学问答任务中的跨语言迁移学习。评估语言模型在医学数据集上的性能。

数据集结构：问题：涵盖医学各主题的多选题医学问题。答案：每个问题的对应正确答案。语言：指示每个问题和答案对的语言的列。

数据与资源

多语言医学问答数据集MedQA-4K数据集.zipZIP
0.75 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.75 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

多语言医学问答数据集MedQA-4K数据集

数据与资源

附加信息

注册成功！