-
HIPE_2022共享任务命名实体数据集
2025年12月22日 30 120 7
数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
-
爱沙尼亚历史报纸众包OCR校正数据集
2025年12月11日 30 92 7
数据集概述 该数据集包含爱沙尼亚国家图书馆DIGAR档案中的历史报纸文章及其对应的众包OCR校正内容,涵盖校正数据、统计图表及说明文档,为研究历史报纸文本数字化处理提供支持。 文件详解 文件名称: README.md,文件格式: Markdown,内容说明: 数据集说明文档,包含数据来源、预处理方法(如原始文本逆向工程、过滤规则)等核心信息。...
-
多语言历史报纸命名实体识别实体链接与立场检测数据集2021
2025年12月11日 30 81 59
数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...



