DatabricksDolly15k-基于指令的大型语言模型训练数据集

DatabricksDolly15k-基于指令的大型语言模型训练数据集

数据来源:互联网公开数据

标签:大型语言模型,指令遵循,数据增强,自然语言处理,文本生成,分类,问答,摘要,信息提取,创意写作,开源数据集

数据概述: Databricks Dolly 15k是一个开源数据集,包含超过15,000条由Databricks员工生成的指令遵循记录。这些记录涵盖了InstructGPT论文中描述的多种行为类别,包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和摘要。该数据集旨在帮助大型语言模型(LLM)展现类似ChatGPT的交互能力。

数据用途概述: 该数据集主要用于训练大型语言模型,也适用于合成数据生成和数据增强等任务。研究人员和开发者可以利用Dolly 15k进行LLM的微调,生成新的训练数据,或者通过数据增强技术提升模型的性能和泛化能力。该数据集可用于学术研究和商业应用,具有广泛的应用前景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.03 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。