数据集概述
本数据集是论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》中描述的数据集,包含从维基百科页面提取的表格,并标注了Dbpedia实体类型。数据集包含三个文件,可用于解决表格内的命名实体识别和实体链接任务。
文件详解
- Wiki_TabNER_final_labeled.json
- 文件格式:JSON
- 字段映射介绍:包含从维基百科页面提取并标注了Dbpedia实体类型的表格数据,用于表格内的命名实体识别任务。
- dataset_entities_labeled_linked.csv
- 文件格式:CSV
- 字段映射介绍:包含表格中提及的所有链接实体及其对应信息,字段包括entity(实体)、class(类别)、wikidata_id(维基数据ID)、source(来源)、mention(提及)、table_id(表格ID)。
- full_dataset_entities_labeled_dbp_yago_final.csv
- 文件格式:CSV
- 字段映射介绍:包含实体及其标注信息,字段包括entity(实体)、class(类别)、wikidata_id(维基数据ID)、source(来源)。
数据来源
论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》
适用场景
- 表格命名实体识别研究: 用于开发和评估表格内命名实体识别模型的性能。
- 实体链接任务: 基于表格中提及的实体及其链接信息,研究实体链接技术。
- 维基百科表格数据挖掘: 分析维基百科表格中的实体分布和类型特征。
- 知识库构建: 利用标注的实体信息,补充和完善知识库内容。