Wiki_TabNER_Based_维基百科表格实体识别标注数据集

数据集概述

本数据集是论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》中描述的数据集,包含从维基百科页面提取的表格,并标注了Dbpedia实体类型。数据集包含三个文件,可用于解决表格内的命名实体识别和实体链接任务。

文件详解

  • Wiki_TabNER_final_labeled.json
  • 文件格式:JSON
  • 字段映射介绍:包含从维基百科页面提取并标注了Dbpedia实体类型的表格数据,用于表格内的命名实体识别任务。
  • dataset_entities_labeled_linked.csv
  • 文件格式:CSV
  • 字段映射介绍:包含表格中提及的所有链接实体及其对应信息,字段包括entity(实体)、class(类别)、wikidata_id(维基数据ID)、source(来源)、mention(提及)、table_id(表格ID)。
  • full_dataset_entities_labeled_dbp_yago_final.csv
  • 文件格式:CSV
  • 字段映射介绍:包含实体及其标注信息,字段包括entity(实体)、class(类别)、wikidata_id(维基数据ID)、source(来源)。

数据来源

论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》

适用场景

  • 表格命名实体识别研究: 用于开发和评估表格内命名实体识别模型的性能。
  • 实体链接任务: 基于表格中提及的实体及其链接信息,研究实体链接技术。
  • 维基百科表格数据挖掘: 分析维基百科表格中的实体分布和类型特征。
  • 知识库构建: 利用标注的实体信息,补充和完善知识库内容。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 307.39 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。