数据集

巴基斯坦国立现代大学阿拉伯文光学字符识别数据集-2021-tayyabnasir22

巴基斯坦国立现代大学阿拉伯文光学字符识别数据集-2021-tayyabnasir22 数据来源：互联网公开数据标签：OCR,阿拉伯文,文本识别,深度学习,数据集,图像处理,字体多样性,科研

数据概述：本数据集MMU-OCR-21是为解决公开印刷阿拉伯文光学字符识别（OCR）数据集体积小且字体单一的问题而创建的。数据集包含602,472个jpg图像文件和9个csv文件，这些csv文件包含标注的真值信息。数据集中的每个文本行、单词和字符都使用三种不同字体（Naskh、Nastaleeq和Tehreer）进行了渲染，旨在提高阿拉伯文文本识别的多样性和准确性。该数据集是巴基斯坦国立现代大学关于“使用深度学习进行端到端阿拉伯文文本识别”的研究工作的一部分。

数据用途概述：该数据集适用于阿拉伯文OCR研究、深度学习模型训练和评估、文本识别算法开发等场景。研究人员和开发者可以利用此数据集进行OCR系统的开发和优化；教育者可以用此数据集作为教学资源，帮助学生理解阿拉伯文文本识别技术。此外，该数据集还为公共政策研究者和语言技术专家提供了宝贵的数据支持，有助于推动阿拉伯文信息处理技术的发展。

引用：如果使用MMU-OCR-21数据集，请引用以下文献： Nasir, T., Malik, M. K., & Shahzad, K. (2021). MMU-OCR-21: Towards End-to-End Urdu Text Recognition Using Deep Learning. IEEE Access, 1-1. https://doi.org/10.1109/ACCESS.2021.3110787

许可：本数据集遵循以下许可协议：

数据与资源

versions_20250402181707.zipZIP
467.49 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	467.49 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

巴基斯坦国立现代大学阿拉伯文光学字符识别数据集-2021-tayyabnasir22

数据与资源

附加信息

注册成功！