数据集

大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator

大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator 数据来源：互联网公开数据标签：大规模数据集,偏好数据,语言模型,人工智能,奖励模型,评论模型,机器学习,训练数据,教育,研究

数据概述：本数据集为大规模偏好数据集，专为训练强大的奖励和评论模型而设计，利用对齐的语言模型生成高质量的数据。数据集包含超过256,000个样本，样本源自多种来源，如UltraChat、ShareGPT、Evol-Instruet、TruthfulQA等。每个样本包括指令、语言模型生成的正确答案和错误答案，便于研究人员进行深入分析和模型训练。

数据用途概述：该数据集适用于多种研究和应用领域，包括句子完成模型训练、自然语言理解任务（如问答、情感分析）开发、强监督学习算法构建等。研究人员可以利用此数据集创建模型，预测在实际场景中对指令的不同偏好，适用于机器翻译、文本生成、摘要和对话生成等多种任务。此外，数据集也适合教育和科普用途，帮助学习者理解语言模型的工作原理和应用场景。

数据集包含的主要字段如下： - source：数据来源（字符串） - instruction：提供给语言模型的指令（字符串） - models：生成答案的语言模型（字符串） - correct_answers：指令的正确答案（字符串） - incorrect_answers：指令的错误答案（字符串）

本数据集遵循CC0 1.0 Universal (CC0 1.0)许可，即公共领域奉献，允许用户自由复制、修改、分发和表演该作品，无需获得许可。使用本数据集进行研究时，请务必引用原作者和Huggingface Hub。

数据与资源

versions_20250407043539.zipZIP
193.00 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	193.0 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。