数据集 - 海数据

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

2026年1月22日 30 41 1

数据集概述本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...
- ZIP
大型语言模型LLM科学考试RLHF训练数据集

2025年4月15日 30 55 40

大型语言模型LLM科学考试RLHF训练数据集数据来源：互联网公开数据标签：LLM, 科学考试, RLHF, 奖励模型训练, 强化学习, 自然语言处理, 机器学习数据概述：本数据集是使用Llama-2-13b模型生成的，专门用于奖励模型（RM, Reward Model）训练，进而应用于强化学习与人类反馈（RLHF, Reinforcement...
- ZIP

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？