大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator
数据来源:互联网公开数据
标签:大规模数据集,偏好数据,语言模型,人工智能,奖励模型,评论模型,机器学习,训练数据,教育,研究
数据概述:
本数据集为大规模偏好数据集,专为训练强大的奖励和评论模型而设计,利用对齐的语言模型生成高质量的数据。数据集包含超过256,000个样本,样本源自多种来源,如UltraChat、ShareGPT、Evol-Instruet、TruthfulQA等。每个样本包括指令、语言模型生成的正确答案和错误答案,便于研究人员进行深入分析和模型训练。
数据用途概述:
该数据集适用于多种研究和应用领域,包括句子完成模型训练、自然语言理解任务(如问答、情感分析)开发、强监督学习算法构建等。研究人员可以利用此数据集创建模型,预测在实际场景中对指令的不同偏好,适用于机器翻译、文本生成、摘要和对话生成等多种任务。此外,数据集也适合教育和科普用途,帮助学习者理解语言模型的工作原理和应用场景。
数据集包含的主要字段如下:
- source:数据来源(字符串)
- instruction:提供给语言模型的指令(字符串)
- models:生成答案的语言模型(字符串)
- correct_answers:指令的正确答案(字符串)
- incorrect_answers:指令的错误答案(字符串)
本数据集遵循CC0 1.0 Universal (CC0 1.0)许可,即公共领域奉献,允许用户自由复制、修改、分发和表演该作品,无需获得许可。使用本数据集进行研究时,请务必引用原作者和Huggingface Hub。