-
ICPR_2020文本块分割竞赛新闻眼数据集
2026年2月9日 30 98 62
数据集概述 本数据集为ICPR 2020文本块分割竞赛专用数据,源自NewsEye项目,包含奥地利国家图书馆提供的19至20世纪德语历史报纸页面(部分二值化),涉及4种报纸标题。数据分为简单赛道(仅连续文本)和复杂赛道(含表格、图像等),各赛道含训练数据40页、测试数据10页,总计6个压缩文件。 文件详解 训练数据文件...
-
德语报纸中_gewinkt_与_gewunken_分布数据集1950_2019
2025年12月21日 30 35 2
数据集概述 该数据集包含1950至2019年间德语报纸中动词'winken'的两种过去分词形式'gewinkt'与'gewunken'的分布统计数据,为研究德语词汇形态演变提供支持。 文件详解 文件名称: gewinkt_gewunken_DeReKo.csv 文件格式: CSV(逗号分隔值) 字段映射: Decade:...
-
多语言历史报纸命名实体识别实体链接与立场检测数据集2021
2025年12月11日 30 178 134
数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...



