希腊议会二战后会议记录分析与识别数据集1946_1947

数据集概述

该数据集通过文本识别与自然语言处理技术,解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像,以及通过语言模型优化、信息提取技术分析的演讲数据,首次量化了获得掌声的议题。

文件详解

  • 文件名称: README.md,文件格式: Markdown,内容: 数据集获取说明,包含从希腊议会图书馆网站获取PDF文件的步骤
  • 文件名称: PPAST_GR_Dataset.zip,文件格式: ZIP压缩包,内容: 数据集的核心文件压缩包,可能包含识别后的文本、模型输出等数据资源
  • 文件名称: ppast-gr.jpg,文件格式: JPG图片,内容: 数据集相关的图片文件

适用场景

  • 历史研究: 分析1946-1947年希腊议会讨论议题及社会关注重点
  • 文本识别技术应用: 评估历史文档OCR模型在低质量扫描图像中的性能
  • 自然语言处理研究: 探索历史文本语料的信息提取、量化分析方法
  • 数字人文研究: 推动历史文档数字化与开放获取的实践应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 979.25 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。