InftyMCCDB_2数学表达式数据集

数据集概述

该数据集是InftyCDB-2的修改版本,包含扫描文章页面中的数学表达式。原始数据含21,056个表达式,经去除矩阵和网格公式后保留19,381个,覆盖213个符号类,按符号与关系类分布划分为训练集(12,551张图像)和测试集(6,830张图像),表达式符号数量平均为7.33个。

文件详解

  • 压缩文件包:
  • LG_test.zip: 压缩文件,可能包含测试集的标签图(.lg)格式真值文件
  • LG.zip: 压缩文件,可能包含训练集的标签图(.lg)格式真值文件
  • IMG.zip: 压缩文件,可能包含所有数学表达式对应的.png格式图像文件

适用场景

  • 数学符号识别研究: 用于训练和测试数学表达式图像识别模型
  • 光学字符识别(OCR)技术开发: 针对印刷体数学公式的OCR算法优化
  • 文档数字化应用: 扫描学术文档中数学内容的自动提取与结构化处理
  • 人工智能教育工具开发: 支持智能辅导系统中的数学公式解析功能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 67.95 MiB
最后更新 2025年12月18日
创建于 2025年12月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。