数据集 - 海数据

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

2026年1月22日 30 92 13

数据集概述本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...

ZIP

大语言模型性能基准评测数据集-dustalov

2025年4月24日 30 51 27

大语言模型性能基准评测数据集-dustalov 数据来源：互联网公开数据标签：大语言模型,模型评估,基准测试,机器反馈,人类反馈,语言技术,模型比较数据概述：本数据集包含了一系列基于精心挑选的提示（prompts）和不同大语言模型（LLM）的成对响应比较结果。这些比较结果结合了人类和机器的反馈，旨在构建一个简洁的大语言模型排行榜（LLMFAO...

ZIP

强化学习与人类反馈数据RLHF数据集-devanshumahapatra

2025年4月23日 30 113 14

强化学习与人类反馈数据RLHF数据集-devanshumahapatra 数据来源：互联网公开数据标签：强化学习，人类反馈，数据集，自然语言处理，文本生成，模型训练，人工智能，语言模型数据概述：该数据集包含了用于强化学习与人类反馈（RLHF）技术的数据，主要用于训练语言模型，使其生成更符合人类偏好的文本。主要特征如下：...

ZIP

人类行为偏好数据集

2025年4月20日 30 42 34

人类行为偏好数据集数据来源：互联网公开数据标签：行为偏好, AI伦理, 社会动态, 人类反馈, 实验研究数据概述：本数据集由Anthropic Labs研究团队通过Human-in-the-Loop方法收集，包含来自众包工作者对不同提示的回答，旨在探索“ helpfulness（帮助性）”与“...

ZIP

找到4个数据集

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

大语言模型性能基准评测数据集-dustalov

强化学习与人类反馈数据RLHF数据集-devanshumahapatra

人类行为偏好数据集

注册成功！