Medium平台文章数据集-用于LLM微调-2024

Medium平台文章数据集-用于LLM微调-2024 数据来源:互联网公开数据 标签:Medium,文章,文本数据,LLM,微调,自然语言处理,文本生成,摘要,问答 数据概述: 本数据集包含超过10万篇从Medium平台收集的文章,旨在用于大型语言模型(LLM)的微调,特别是用于因果语言建模(CLM)等任务。数据集主要包含两列:标题(title)和正文(text)。

字段定义: title:Medium文章的标题。 text:Medium文章的主要内容或正文。

数据用途概述: 该数据集可用于多种用途,包括: 语言模型微调:使用此数据集微调预训练的语言模型,以执行文本生成、摘要和问答等特定任务。 因果语言建模:训练模型以理解教学内容中的因果关系,使其适用于问答或基于指令的响应生成等任务。 数据收集:文章来自Medium上各种各样的主题,涵盖广泛的学科和写作风格。数据集经过预处理,仅保留标题和正文列中的相关信息。 版本历史: 版本 1.0:初始版本,包含超过100,000篇用于语言模型微调的Medium文章。

免责声明: 数据集按原样提供,不保证其准确性、完整性或适用于任何特定目的。 鼓励用户在使用前审查和验证数据。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 8, 2025, 00:32 (UTC)
创建于 五月 7, 2025, 23:51 (UTC)