数据集

LLM科学考试数据集-多样化数据源整合-竞赛专用

LLM科学考试数据集-多样化数据源整合-竞赛专用数据来源：互联网公开数据标签：LLM, 科学考试, 数据集, 机器学习, 自然语言处理, 文本生成, 考试, 训练数据, MMLU, ChatGPT, Wikipedia 数据概述：本数据集是为 LLM (大型语言模型, Large Language Model) 科学考试竞赛准备的，包含了 6 个不同的数据集，旨在为 LLM 模型提供多样化和高质量的训练数据。数据集构成：原始训练数据集 (LLM Science Exam)：竞赛官方提供的原始训练数据集。 RADEK OSMULSKI 提供的 6.0k 训练样本：数据集链接已提供。 RADEK OSMULSKI 提供的 500 训练样本：数据集链接已提供。 Zhecheng LI 使用 ChatGPT3.5 收集的 600 训练样本：数据来源链接已提供。 LEONID KULYK 提供的 wikipedia-stem-1k 数据集：数据集链接已提供。 MMLU 数据集 (精选)：从 MMLU (Massive Multitask Language Understanding) 数据集中精选的约 3600+ 个适合微调竞赛的示例。原始数据集来源已提供。数据用途概述：该数据集主要用于 LLM 模型的训练和评估，尤其适用于参加 LLM 科学考试竞赛。模型训练：提供多样化的训练数据，帮助 LLM 模型学习科学知识和推理能力。竞赛准备：为竞赛选手提供丰富的训练数据，帮助他们准备 LLM 科学考试。文本生成与理解：探索 LLM 在科学领域的文本生成和理解能力。多模态学习：如果数据集包含图像或其他模态数据，还可以用于多模态学习的研究。

数据与资源

LLM科学考试数据集-多样化数据源整合-竞赛专用.zipZIP
1.30 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.3 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

LLM科学考试数据集-多样化数据源整合-竞赛专用

数据与资源

附加信息

注册成功！