LLM科学考试数据集-多样化数据源整合-竞赛专用

LLM科学考试数据集-多样化数据源整合-竞赛专用 数据来源:互联网公开数据 标签:LLM, 科学考试, 数据集, 机器学习, 自然语言处理, 文本生成, 考试, 训练数据, MMLU, ChatGPT, Wikipedia 数据概述: 本数据集是为 LLM (大型语言模型, Large Language Model) 科学考试竞赛准备的, 包含了 6 个不同的数据集, 旨在为 LLM 模型提供多样化和高质量的训练数据。 数据集构成: 原始训练数据集 (LLM Science Exam): 竞赛官方提供的原始训练数据集。 RADEK OSMULSKI 提供的 6.0k 训练样本: 数据集链接已提供。 RADEK OSMULSKI 提供的 500 训练样本: 数据集链接已提供。 Zhecheng LI 使用 ChatGPT3.5 收集的 600 训练样本: 数据来源链接已提供。 LEONID KULYK 提供的 wikipedia-stem-1k 数据集: 数据集链接已提供。 MMLU 数据集 (精选): 从 MMLU (Massive Multitask Language Understanding) 数据集中精选的约 3600+ 个适合微调竞赛的示例。 原始数据集来源已提供。 数据用途概述: 该数据集主要用于 LLM 模型的训练和评估, 尤其适用于参加 LLM 科学考试竞赛。 模型训练: 提供多样化的训练数据, 帮助 LLM 模型学习科学知识和推理能力。 竞赛准备: 为竞赛选手提供丰富的训练数据, 帮助他们准备 LLM 科学考试。 文本生成与理解: 探索 LLM 在科学领域的文本生成和理解能力。 多模态学习: 如果数据集包含图像或其他模态数据, 还可以用于多模态学习的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.3 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。