数独图像数据集
数据来源:互联网公开数据
标签:数独,图像识别,机器学习,深度学习,图像处理,训练集,测试集
数据概述:
本数据集包含从各种报纸上拍摄的200张数独图像,使用智能手机摄像头拍摄。这些图像被分为两组:160张训练图像和40张测试图像。数据集中还提供了outlines_sorted.csv文件,记录了每张数独图像的网格轮廓,可用于训练模型自动识别网格。
数据集有三个版本:
V2:包含完整数据集,共200张图像(160张训练图像和40张测试图像)
mixed:每个数独谜题都已人工完成(每个81个数字都已设定),与V2版本相同的图像,但为完成状态
V1:旧版本,包含160张图像,不再推荐使用
引用:
@inproceedings{wicht2014camera,
title={Camera-based Sudoku recognition with deep belief network},
author={Wicht, Baptiste and Hennebert, Jean},
booktitle={Soft Computing and Pattern Recognition (SoCPaR), 2014 6th International Conference of},
pages={8388},
year={2014},
organization={IEEE}
}
@inproceedings{wicht2015mixed,
title={Mixed handwritten and printed digit recognition in Sudoku with Convolutional Deep Belief Network},
author={Wicht, Baptiste and Henneberty, Jean},
booktitle={Document Analysis and Recognition (ICDAR), 2015 13th International Conference on},
pages={861865},
year={2015},
organization={IEEE}
}
格式:
数据集的格式简单明了。对于每个imageX.jpg文件,都有一个对应的imageX.dat文件,其中包含该图像的元数据。以下是一个示例文件的内容:
sonyEricsson s500i
640x480:24 JPG
0 0 0 7 0 0 0 8 0
0 9 0 0 0 3 1 0 0
0 0 6 8 0 5 0 7 0
0 2 0 6 0 0 0 4 9
0 0 0 2 0 0 0 5 0
0 0 8 0 4 0 0 0 7
0 0 0 9 0 0 0 3 0
3 7 0 0 0 0 0 0 6
1 0 5 0 0 4 0 0 0
文件的第一行包含拍摄图像的手机品牌和型号。第二行包含图像的格式信息。后续行描述了数独谜题,其中0表示空单元格。
致谢:
图像由John Morgan在Unsplash上拍摄