印度手写文字识别数据集

印度手写文字识别数据集 数据来源:互联网公开数据
标签:手写识别,孟加拉语,德瓦纳格里语,机器学习,模式识别,HMM,区段分割

数据概述:
本数据集包含孟加拉语和德瓦纳格里语的手写单词样本,总计33,219个样本。其中,孟加拉语样本为17,091个,德瓦纳格里语样本为16,128个。这些样本来自不同职业的个人手写文档图像。数据集分为训练、验证和测试三部分,孟加拉语样本中11,253个用于训练,1,982个用于验证,3,856个用于测试;德瓦纳格里语样本中10,667个用于训练,1,872个用于验证,3,589个用于测试。此外,数据集还提供了包含1,547个孟加拉语单词和1,957个德瓦纳格里语单词的词汇表,便于后续研究和应用。

数据用途概述:
该数据集适用于手写文字识别模型的训练与评估,特别是在孟加拉语和德瓦纳格里语等印度语言领域的研究。研究人员可以利用此数据集开发基于隐马尔可夫模型(HMM)的识别系统,支持机器学习算法在手写识别任务中的优化与改进。同时,数据集也可用于模式识别领域的教学与培训,帮助学习者理解手写文字识别的原理与实现方法。此外,数据集为印度语言的手写识别技术研究提供了重要的基础资源,推动相关技术的发展与应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 109.78 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。