巴基斯坦国立现代大学阿拉伯文光学字符识别数据集-2021-tayyabnasir22
数据来源:互联网公开数据
标签:OCR,阿拉伯文,文本识别,深度学习,数据集,图像处理,字体多样性,科研
数据概述:
本数据集MMU-OCR-21是为解决公开印刷阿拉伯文光学字符识别(OCR)数据集体积小且字体单一的问题而创建的。数据集包含602,472个jpg图像文件和9个csv文件,这些csv文件包含标注的真值信息。数据集中的每个文本行、单词和字符都使用三种不同字体(Naskh、Nastaleeq和Tehreer)进行了渲染,旨在提高阿拉伯文文本识别的多样性和准确性。该数据集是巴基斯坦国立现代大学关于“使用深度学习进行端到端阿拉伯文文本识别”的研究工作的一部分。
数据用途概述:
该数据集适用于阿拉伯文OCR研究、深度学习模型训练和评估、文本识别算法开发等场景。研究人员和开发者可以利用此数据集进行OCR系统的开发和优化;教育者可以用此数据集作为教学资源,帮助学生理解阿拉伯文文本识别技术。此外,该数据集还为公共政策研究者和语言技术专家提供了宝贵的数据支持,有助于推动阿拉伯文信息处理技术的发展。
引用:
如果使用MMU-OCR-21数据集,请引用以下文献:
Nasir, T., Malik, M. K., & Shahzad, K. (2021). MMU-OCR-21: Towards End-to-End Urdu Text Recognition Using Deep Learning. IEEE Access, 1-1. https://doi.org/10.1109/ACCESS.2021.3110787
许可:
本数据集遵循以下许可协议: