数据集概述
本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-Feedback数据,基于ASQA数据重构并补充人类反馈,包含训练、验证、测试等7个文件,用于语言模型训练的奖励模型构建与RLHF实验,支持细粒度反馈对模型训练效果的研究。
文件详解
- README.md(文档文件,格式:MD):说明数据集来源、ASQA数据重构方式、数据拆分规则及RLHF实验初始化用1K监督训练样本的说明
- train_1k.json(数据文件,格式:JSON):包含1K个用于初始化策略模型的监督训练示例
- train.json(数据文件,格式:JSON):重构后的训练集数据(3,853条样本)
- train_feedback.json(数据文件,格式:JSON):训练集对应的细粒度人类反馈数据
- dev.json(数据文件,格式:JSON):重构后的验证集数据(500条样本)
- dev_feedback.json(数据文件,格式:JSON):验证集对应的细粒度人类反馈数据
- test.json(数据文件,格式:JSON):重构后的测试集数据(948条样本)
数据来源
论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”
适用场景
- 语言模型RLHF训练:用于构建奖励模型,支持基于细粒度人类反馈的强化学习训练实验
- 反馈机制效果研究:对比细粒度与粗粒度反馈对语言模型训练奖励的影响差异
- 数据拆分策略验证:分析ASQA数据重构后不同拆分方式(训练/验证/测试集)对模型评估的作用
- 监督训练初始化优化:探究1K监督训练样本对RLHF策略模型初始化的效果提升