罗马尼亚过渡书写系统数据集
数据来源:互联网公开数据
标签:过渡书写系统,罗马尼亚,历史文档,OCR,字符统计,语言研究,文档分析
数据概述:
本数据集包含156页使用罗马尼亚过渡书写系统(RTS)书写的罗马尼亚文本,时间范围为1833年至1864年。RTS是19世纪罗马尼亚地区使用的拉丁与西里尔字母混合书写系统,旨在促进从罗马尼亚西里尔字母向现代拉丁字母的过渡。数据集中的文本涵盖了诗歌、小说、戏剧、故事、报纸和宗教文本等多种文学类型。
数据来源包括蒂米什瓦拉、雅西和克卢日-纳波卡的中央大学图书馆,通过其在线平台或请求获取。数据集中的图像以JPEG和PNG格式提供,尺寸范围从300x900像素到2000x3000像素,文件大小在70 KB到10 MB之间。
数据集包含4588行文本,总计31,132个单词和158,656个字符,其中包括61,065个西里尔字符、27,022个拉丁字符、53,844个重叠字符(相同符号)和16,725个其他字符(如标点、数字等)。数据集覆盖了罗马尼亚主要省份的关键出版地区,包括布加勒斯特、雅西、布拉索夫、锡比乌、布拉亚,以及部分国外出版地(如维也纳、布达佩斯、巴黎)。
数据集中的图像包含旧文档常见的挑战,如磨损、污渍、褪色、图书馆印记、手写笔迹、墨迹扩散和文本对齐不均等因素可能会影响可读性。
数据用途概述:
该数据集为研究人员和从业者提供了宝贵资源,适用于历史文档分析、转写技术研究、罗马尼亚语言演变研究等领域。数据集可用于开发和评估OCR模型及其他语言处理技术在罗马尼亚过渡书写系统中的性能。数据集附带了真实文本(.gt.txt文件)和Tesseract 5 OCR引擎的框文件(.box文件)。
该数据集适用于OCR模型训练与评估、历史文献数字化、语言转写技术研究、罗马尼亚语言与文化研究等场景。它为研究者提供了了解罗马尼亚过渡书写系统及其应用的宝贵机会,同时也为实践者提供了测试和改进OCR技术的实用工具。