数据集

菜谱文本生成数据集RecipeTextGenerationDataset-rafaykhattak

数据来源：互联网公开数据

标签：菜谱, 食谱, 自然语言生成, 文本摘要, 命名实体识别, 食材识别, 文本数据, 烹饪

数据概述：该数据集包含来自互联网的菜谱数据，记录了菜谱的标题、食材（命名实体识别，NER）和制作步骤（directions）。主要特征如下：时间跨度：数据未明确标注时间，可视为静态菜谱集合。地理范围：数据来源未明确，菜谱内容涵盖多种菜系和烹饪风格，具有通用性。数据维度：包括“title”（菜谱标题）、“NER”（食材列表，以JSON格式存储）和“directions”（烹饪步骤，以JSON格式存储）三个字段。数据格式：CSV格式，文件名为recipe_nlg_subset.csv，方便文本处理和自然语言处理任务。该数据集适合用于菜谱文本生成、食谱摘要、食材识别等相关研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本生成领域的学术研究，如菜谱自动生成、食谱摘要生成、食材关系挖掘等。行业应用：可以为餐饮行业、食谱网站、智能烹饪助手等提供数据支持，例如自动菜谱推荐、菜谱搜索优化等。决策支持：支持餐饮企业进行菜品分析、菜谱优化，并辅助进行菜单设计和菜品推广。教育和培训：作为自然语言处理、文本生成、数据分析等课程的实训素材，用于学生进行模型训练、算法验证和应用开发。此数据集特别适合用于探索菜谱文本的结构化表示、食材与步骤之间的关系，以及生成高质量菜谱文本的方法，从而提升菜谱生成模型的表现。

数据与资源

菜谱文本生成数据集RecipeTextGenerationDataset-rafaykhattak.zipZIP
1.96 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.96 MiB
最后更新	2025年5月7日
创建于	2025年5月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。