数据集

DatabricksDolly15k-基于指令的大型语言模型训练数据集

数据来源：互联网公开数据

标签：大型语言模型,指令遵循,数据增强,自然语言处理,文本生成,分类,问答,摘要,信息提取,创意写作,开源数据集

数据概述： Databricks Dolly 15k是一个开源数据集，包含超过15,000条由Databricks员工生成的指令遵循记录。这些记录涵盖了InstructGPT论文中描述的多种行为类别，包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和摘要。该数据集旨在帮助大型语言模型（LLM）展现类似ChatGPT的交互能力。

数据用途概述：该数据集主要用于训练大型语言模型，也适用于合成数据生成和数据增强等任务。研究人员和开发者可以利用Dolly 15k进行LLM的微调，生成新的训练数据，或者通过数据增强技术提升模型的性能和泛化能力。该数据集可用于学术研究和商业应用，具有广泛的应用前景。

数据与资源

DatabricksDolly15k-基于指令的大型语言模型训练数据集.zipZIP
5.03 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.03 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

DatabricksDolly15k-基于指令的大型语言模型训练数据集

数据与资源

附加信息

注册成功！