数据集

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

数据集概述

本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-Feedback数据，基于ASQA数据重构并补充人类反馈，包含训练、验证、测试等7个文件，用于语言模型训练的奖励模型构建与RLHF实验，支持细粒度反馈对模型训练效果的研究。

文件详解

README.md（文档文件，格式：MD）：说明数据集来源、ASQA数据重构方式、数据拆分规则及RLHF实验初始化用1K监督训练样本的说明
train_1k.json（数据文件，格式：JSON）：包含1K个用于初始化策略模型的监督训练示例
train.json（数据文件，格式：JSON）：重构后的训练集数据（3,853条样本）
train_feedback.json（数据文件，格式：JSON）：训练集对应的细粒度人类反馈数据
dev.json（数据文件，格式：JSON）：重构后的验证集数据（500条样本）
dev_feedback.json（数据文件，格式：JSON）：验证集对应的细粒度人类反馈数据
test.json（数据文件，格式：JSON）：重构后的测试集数据（948条样本）

数据来源

论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”

适用场景

语言模型RLHF训练：用于构建奖励模型，支持基于细粒度人类反馈的强化学习训练实验
反馈机制效果研究：对比细粒度与粗粒度反馈对语言模型训练奖励的影响差异
数据拆分策略验证：分析ASQA数据重构后不同拆分方式（训练/验证/测试集）对模型评估的作用
监督训练初始化优化：探究1K监督训练样本对RLHF策略模型初始化的效果提升

数据与资源

8115396.zipZIP
61.23 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	61.23 MiB
最后更新	2026年1月22日
创建于	2026年1月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。