CafeteriaSA_Based_食品语义资源多标准标注科学摘要数据

数据集概述

本数据集是欧洲食品安全局(EFSA)资助的CAFETERIA项目成果,包含500篇科学摘要的标注内容,涉及Hansard分类法、FoodOn和SNOMED-CT三种食品语义资源,共标注6,407个食品实体。数据集可支持食品信息提取领域的自然语言处理方法开发,包含4个XML格式文件。

文件详解

  • 文件名称:CafeteriaSA_Food.xml
  • 文件格式:XML
  • 字段映射介绍:包含基于Hansard分类法标注的食品实体及对应科学摘要文本
  • 文件名称:CafeteriaSA_FOODON.xml
  • 文件格式:XML
  • 字段映射介绍:包含基于FoodOn语义资源标注的食品实体及对应科学摘要文本
  • 文件名称:CafeteriaSA_SNOMEDCT.xml
  • 文件格式:XML
  • 字段映射介绍:包含基于SNOMED-CT语义资源标注的食品实体及对应科学摘要文本
  • 文件名称:CafeteriaSA_Hansard.xml
  • 文件格式:XML
  • 字段映射介绍:包含基于Hansard分类法标注的食品实体及对应科学摘要文本(注:与CafeteriaSA_Food.xml可能为同一分类法的不同呈现形式)

数据来源

欧洲食品安全局(EFSA)资助的CAFETERIA项目

适用场景

  • 食品信息提取模型训练: 用于开发和优化从科学文本中自动提取食品实体的自然语言处理算法
  • 食品语义资源对齐研究: 分析Hansard、FoodOn、SNOMED-CT三种语义资源在食品实体标注中的差异与关联
  • 食品营养领域文本挖掘: 支持从大量科学摘要中挖掘食品相关的研究趋势与知识关联
  • 多标准语义标注评估: 为食品语义标注工具的性能评估提供标准化测试数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.79 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。