HIPE_2022共享任务命名实体数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

HIPE_2022共享任务命名实体数据集

数据集概述

本数据集是HIPE-2022共享任务的专用数据，用于多语言历史文档中的命名实体识别与分类（NERC）及实体链接（EL）任务。基于六个原始数据集构建，涵盖约两百年的历史报纸和经典评注，包含多种语言和实体标注方案。

文件详解

文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip
文件格式: ZIP压缩包
文件内容: 该压缩包为HIPE-2022共享任务的测试数据集，包含经过格式转换、数据一致性修正和元数据整合后的结构化文件，未提及具体内部文件结构和字段映射。

适用场景

自然语言处理研究: 用于训练和评估多语言历史文档的命名实体识别、分类与链接模型
数字人文研究: 支持历史文本的实体提取与语义分析，助力文化遗产数字化研究
信息抽取技术开发: 针对低资源历史语言的命名实体处理算法优化
多模态语义标注: 为历史文档的实体链接与知识图谱构建提供标注数据支持

数据与资源

6579950.zipZIP
22.98 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	22.98 MiB
最后更新	2025年12月22日
创建于	2025年12月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？