3A2M-烹饪食谱数据集-nazmussakibrupol
数据来源:互联网公开数据
标签:食谱,烹饪,菜谱,食谱生成,自然语言处理,食材,菜品分类,深度学习,文本分析
数据概述:
3A2M+烹饪食谱数据集包含2,231,142条烹饪食谱,并按相关类别进行了标注。该数据集基于3A2M数据集构建。数据集中包含五个关键特征:菜品名称(title)、烹饪步骤(directions)、食材(NER)、补充食材(Extended NER,从烹饪步骤中提取)、菜品类别(genre,字符串格式)以及类别标签(label,数值表示,共9个类别)。
Extended NERs 是从“directions”列文本中提取的,考虑了食物的温度、烹饪方法、缺失的食材和烹饪器具等重要因素。
“title”、“directions”和“NER”属性的数据直接来自RecipeNLG数据集。30万条随机食谱由三位专家人工分类为九个类别之一。其余190万条食谱通过主动学习和委员会查询方法自动分类。命名实体(NER)使用流行的NER工具通过独特的流程提取。
数据用途概述:
该数据集适用于多种研究和应用场景,包括食谱生成、菜品分类、食材分析、营养分析、自然语言处理(NLP)任务等。研究人员可以利用该数据集进行食谱的自动生成,分析不同菜品的营养成分,或者进行菜品分类模型的训练。此外,该数据集也为NLP领域的其他研究提供了丰富的资源。
菜品类别:
数据集包含9个菜品类别,由专家选取:
烘焙(bakery)
饮品(drinks)
荤菜(non-veg)
蔬菜(vegetables)
快餐(fast food)
谷物(cereals)
主菜(meals)
配菜(sides)
融合菜(fusion)
引用:
如果您在研究中使用该数据集,请引用以下文章:
N. Sakib, G. Shahariar, M. M. Kabir, M. K. Hasan, and H. Mahmud, “Assorted, archetypal and annotated two million (3a2m) cooking recipes dataset based on active learning.”
或者使用BibTex格式:
@article{sakibassorted, title={Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes Dataset based on Active Learning}, author={Sakib, Nazmus and Shahariar, GM and Kabir, Md Mohsinul and Hasan, Md Kamrul and Mahmud, Hasan} }