多语言医学问答数据集MedQA-4K数据集

多语言医学问答数据集MedQA-4K数据集 数据来源:互联网公开数据 标签:医学,问答,多语言,自然语言处理,机器学习,英语,中文,韩语,医疗,数据集 数据概述: 本数据集源于MedQA数据集,并精心挑选了多选题形式的医学问题。该数据集专为多语言自然语言处理和微调语言模型而设计。

关键特征: 语言分布: 该数据集包含以下每种语言的1,000个随机抽样问题: 英语(美国):从原始数据集中选取。 简体中文:从中国大陆子集中选取。 繁体中文:从台湾子集中选取。 韩语补充: 为了扩展数据集的多语言能力,使用谷歌翻译器添加了英语问题和答案的韩语翻译。 平衡和随机抽样: 对于每种语言,问题都是从各自的子集中随机抽样的,以确保多样性和公平性。

数据用途概述: 该数据集适用于: 训练和微调多语言语言模型。 探索医学问答任务中的跨语言迁移学习。 评估语言模型在医学数据集上的性能。

数据集结构: 问题:涵盖医学各主题的多选题医学问题。 答案:每个问题的对应正确答案。 语言:指示每个问题和答案对的语言的列。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.75 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。