超细粒度二元偏好学习数据集-2021-thedevastator
数据来源:互联网公开数据
标签:超细粒度偏好,机器学习,自然语言处理,推荐系统,客户满意度,用户偏好预测
数据概述:
本数据集用于超细粒度二元偏好学习任务,包含三个不同的数据集:SFT、PPO 和 DPO。这些数据集通过提示、被选和被拒绝的消息以及每个选项的评分,提供了丰富的用户偏好信息。数据集适用于分析用户对不同输入提示的情感倾向以及他们认为哪个响应更可取或满意。通过对这些数据的分析,可以更深入地理解人类的决策过程,从而改进依赖人工智能的各种应用,如推荐系统或自动化客户服务程序。
数据用途概述:
该数据集适用于训练和评估超细粒度二元偏好学习模型。数据按 SFT、PPO 和 DPO 三个文件组织,每个文件包含一系列提示、被选和被拒绝的消息以及评分。通过这些数据,可以训练一个能够在多种设置中一致且准确预测用户偏好的模型。使用步骤包括:
1. 阅读每个文件中的提示,理解任务要求。
2. 检查被选和被拒绝的消息及其评分,理解这些消息如何受情感或情感等因素的影响。
3. 根据上述理解创建一个模型,准确预测超细粒度二元偏好学习任务(SFT、PPO 或 DPO)中任何一对选项的用户偏好。
4. 使用来自所有三个文件(SFT、PPO 和 DPO)的未见数据集验证模型,以确定模型是否在不同上下文中准确预测用户偏好。
研究想法:
1. 基于机器学习和自然语言处理方法训练确定用户在超细粒度选项之间偏好的模型或算法。
2. 开发一个监督学习算法,利用提示、被选选项、被拒绝选项、消息和评分变量识别影响超细粒度任务中用户偏好选择的因素。
3. 利用强化学习代理(如 PPO 或 DPO)通过与从本数据集收集的真实用户数据进行交互实验,在不同领域创建有效选择超细粒度选项的策略。
数据格式:
- 文件: test_sft.csv
字段名 | 描述
prompt | 给用户的提示 (字符串)
chosen | 用户选择的消息 (字符串)
rejected | 用户拒绝的消息 (字符串)
messages | 呈现给用户的消息 (列表)
score_chosen | 被选消息的评分 (整数)
score_rejected | 被拒绝消息的评分 (整数)
字段名 | 描述
prompt | 给用户的提示 (字符串)
chosen | 用户选择的消息 (字符串)
rejected | 用户拒绝的消息 (字符串)
messages | 呈现给用户的消息 (列表)
score_chosen | 被选消息的评分 (整数)
score_rejected | 被拒绝消息的评分 (整数)
字段名 | 描述
prompt | 给用户的提示 (字符串)
chosen | 用户选择的消息 (字符串)
rejected | 用户拒绝的消息 (字符串)
messages | 呈现给用户的消息 (列表)
score_chosen | 被选消息的评分 (整数)
score_rejected | 被拒绝消息的评分 (整数)
致谢:
如果您在研究中使用此数据集,请引用原始作者。
许可:
许可:CC0 1.0 Universal (CC0 1.0) - 公共领域奉献
无版权 - 您可以复制、修改、分发和表演该作品,即使用于商业目的,也不需要获得许可。详见其他信息。