QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

数据集概述

本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-Feedback数据,基于ASQA数据重构并补充人类反馈,包含训练、验证、测试等7个文件,用于语言模型训练的奖励模型构建与RLHF实验,支持细粒度反馈对模型训练效果的研究。

文件详解

  • README.md(文档文件,格式:MD):说明数据集来源、ASQA数据重构方式、数据拆分规则及RLHF实验初始化用1K监督训练样本的说明
  • train_1k.json(数据文件,格式:JSON):包含1K个用于初始化策略模型的监督训练示例
  • train.json(数据文件,格式:JSON):重构后的训练集数据(3,853条样本)
  • train_feedback.json(数据文件,格式:JSON):训练集对应的细粒度人类反馈数据
  • dev.json(数据文件,格式:JSON):重构后的验证集数据(500条样本)
  • dev_feedback.json(数据文件,格式:JSON):验证集对应的细粒度人类反馈数据
  • test.json(数据文件,格式:JSON):重构后的测试集数据(948条样本)

数据来源

论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”

适用场景

  • 语言模型RLHF训练:用于构建奖励模型,支持基于细粒度人类反馈的强化学习训练实验
  • 反馈机制效果研究:对比细粒度与粗粒度反馈对语言模型训练奖励的影响差异
  • 数据拆分策略验证:分析ASQA数据重构后不同拆分方式(训练/验证/测试集)对模型评估的作用
  • 监督训练初始化优化:探究1K监督训练样本对RLHF策略模型初始化的效果提升
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 61.23 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。