HIPE_2022共享任务命名实体数据集

数据集概述

本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。

文件详解

  • 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip
  • 文件格式: ZIP压缩包
  • 文件内容: 该压缩包为HIPE-2022共享任务的测试数据集,包含经过格式转换、数据一致性修正和元数据整合后的结构化文件,未提及具体内部文件结构和字段映射。

适用场景

  • 自然语言处理研究: 用于训练和评估多语言历史文档的命名实体识别、分类与链接模型
  • 数字人文研究: 支持历史文本的实体提取与语义分析,助力文化遗产数字化研究
  • 信息抽取技术开发: 针对低资源历史语言的命名实体处理算法优化
  • 多模态语义标注: 为历史文档的实体链接与知识图谱构建提供标注数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 22.98 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。