-
QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据
2026年1月22日 30 146 111
数据集概述 本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...
-
大型语言模型LLM科学考试RLHF训练数据集
2025年4月15日 30 57 51
大型语言模型LLM科学考试RLHF训练数据集 数据来源:互联网公开数据 标签:LLM, 科学考试, RLHF, 奖励模型训练, 强化学习, 自然语言处理, 机器学习 数据概述: 本数据集是使用Llama-2-13b模型生成的,专门用于奖励模型(RM, Reward Model)训练,进而应用于强化学习与人类反馈(RLHF, Reinforcement...



