[发明专利]图像中数学公式的自动识别方法无效

专利信息
申请号: 200810053443.1 申请日: 2008-06-06
公开(公告)号: CN101329731A 公开(公告)日: 2008-12-24
发明(设计)人: 史广顺;肖萃 申请(专利权)人: 南开大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/46;G06K9/62
代理公司: 天津佳盟知识产权代理有限公司 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种图像中数学公式的自动识别方法。包括:建立数学公式句法结构模型,建立数学公式底层知识库;图像中数学公式的定位;数学符号的识别;数学公式结构的分析与理解,数学公式结构的表示与格式化输出。本发明针对脱机数学公式图像的识别与理解难题,设计了一整套方法模型,形成了全流程、自动化处理数学公式图像的方法。该方法可实现对文档图像中独立行/嵌入式数学公式的自动判定和提取,从而满足数学公式图像自动录入、数学公式结构理解与格式重现的应用需求。该方法可与现有的普通文字OCR系统相互融合,形成功能更为完整的文档图像处理系统。也可支撑其他领域的表达式处理方法研究,如针对化学方程式的自动处理等。
搜索关键词: 图像 数学公式 自动识别 方法
【主权项】:
1、一种图像中数学公式的自动识别方法,其特征在于包括以下步骤:第1、建立数学公式句法结构模型,采用四元组G=(V,S,P,T)形式描述,即为:数学公式句法结构=(版面关系,字符集,句法规则,语法规则),其中,版面关系:指数学公式的版面结构,包括构成公式的所有符号的内容、字体、字号,以及符号之间的空间位置关系;字符集:组成一个数学公式的所有符号,包括所有操作符与操作数;根据符号内容调用相应的语法规则,确定符号之间的组合关系,检查符号出现的合法性;语法规则:主要定义了符号所具有的语法信息,包括符号自身的语法属性和符号之间的约束关系和组合关系,包括操作属性、语法属性、判定规则、特殊组合规则、子表达式组合规则等信息,同时用于对定位及识别结果的校验和修正错误!未找到引用源。;句法规则:句法规则是为以后扩展语义所服务的,它定义了所有类型操作符之间的优先级别、操作符的目类型,即操作符所拥有的子表达式的个数,和各种类型子表达式的组合结构和约束关系;主要用于分析不同运算符之间的优先级顺序,消除数学符号的多义性,并指导数学公式转换为其他的结构描述形式;第2、建立数学公式底层知识库,包括:符号信息:符号图像和符号内容;语法信息:符号的操作属性、符号的语法属性或称符号的类别、符号语法属性的判定规则、符号具有的组合关系;句法信息:符号的目类型、子表达式的组合关系和判定规则、操作符的优先级别;第3、图像中数学公式的定位,数学公式的定位方法为:将输入的图像进行区域和行切分,得到版面元素集合;然后,对不同的版面元素进行特征分类,从而定位出全部数学公式的独立图像,包括独立行公式和内嵌公式两类;版面元素的特征分类由特征向量决定,特征向量x=(HT,AS,BS,LI,RI,LD,TD,MS,SC),其中,(1)行高:                HT=h/h0                   (1-1)(2)上行间距:            AS=as/h0                  (1-2)(3)下行间距:            BS=bs/h0                  (1-3)(4)行左缩进:            LI=li/l                   (1-4)(5)行右缩进:            RI=ri/l                   (1-5)(6)公式编号和公式的距离:LD=ld/h0                  (1-6)(7)有无二维结构:        TD={1|if存在二维结构}     (1-7)(8)有无特殊数学符号:    MS={1|if存在特殊数学符号} (1-8)(9)区域中的最大连通体尺寸:SC=Max(Max(HCCXi,WCCXi))i=0..n,HCCXi,WCCXi分别代表区域中的第i个连通体的高度和宽度,n是区域中连通体的数目,公式中的h是行的实际高度,l是行的实际长度,h0是行内所有字符的平均高度;第3.1、独立行公式的定位方法,独立行公式是文档图像中的一个特殊独立行,定位过程为:第3.1.1、对文档图像进行区域划分,我们应用在X-Y方向反复投影的方法,通过寻找版面中的较大投影空白,将文档切分为较小的独立区域,得到多个版面区域元素;第3.1.2、对不同版面区域元素的特征向量进行判定,过滤掉图、表元素;第3.1.3、将每个独立区域投影到Y轴,对区域进行行切分,得到行元素;第3.1.4、将行元素的特征向量带入分类器,得到最终分类结果;在系统的实现中我们使用parzen window的方法对文本行和公式行的先验概率分布进行估计;使用已知类别的样本对未知的类条件概率密度p(x|ωj)进行估计,这实际上是分类器的训练过程,Parzen分类器的训练方法是:设任一类别ωk有Nk个训练样本那么Parzen分类器就由核函数以及窗宽度hk决定,公式(3-1)是最常使用的核函数,其中是p(x|ωk)的估计量,是类别的训练样本的协方差矩阵;p^(x|ωk)=1NkΣj=1Nk[1(2π)n/2hkn|Σ^k|1/2exp{-12hk2(x-xjk)TΣ^k-1(x-xjk)}]---(3-1)]]>得到估计以后,根据最小错误率的Bayes分类准则分类了,即:p(x|ωi)P(ωi)=maxmaxj=1,2,...,k{p(x|ωj)P(ωj)}x=ωi;]]>第3.2、内嵌公式的定位方法,内嵌数学公式是和普通文字混合在一起的,为了实现公式与文本的分离,需要采用自底向上的方法,先将文字行打碎,然后在打碎的文字行中通过二维特征或识别特征的提取,挑出内嵌数学公式;通过下面两个步骤,对打碎的单词进行特征分类,以实现内嵌公式的定位:第3.2.1、第一步是应用单词的二维特征,除标点符号外,一个正常单词的所有符号的主要部分都集中在baseline和meanline之间,由于数学公式内部存在二维空间结构,符号的位置不在同一水平线上,在一个单词中,当处于meanline和baseline区域之外的连通体数量nab满足公式nabn>Tab,]]>那么这个单词就被认定具有二维结构,是一个内嵌公式,其中n是单词内的总符号数目,nab是单词内异常符号数目,Tab是判决为内嵌数学公式的阈值;第3.2.2、第二步是判断单词中是否具有特殊的数学符号,对于不存在二维结构的隐式内嵌公式,需要使用识别特征寻找单词中的数学符号,当存在数学符号就可以认定这个单词是内嵌公式,或内嵌公式的一个组成部分,然后将已定位部分向两端扩展,定位出完整的内嵌公式;第4、数学符号的识别数学符号识别的主要作用是:识别公式中的数学字符,保存字符版面信息,为结构分析模块提供必要信息,识别方法如下:第4.1、字符切割在字符识别前,需要从定位出的公式图像中,得到独立的字符图像;我们采用寻找连通体的方法,完成公式图像中字符的切割;另外,在得到所有连通体后,对以下三种字符结构情况,还需要进行连通体合并,得到完整的字符图像,(1)字符在垂直方向可分为多个连通体,(2)字符在水平方向可分为多个连通体,(3)大连通体包含小连通体;第4.2、普通数学字符的识别对普通数学字符的识别基于两类特征:字符结构特征与字符统计特征;1)字符统计特征的抽取:令待识别符号ω图像为Iw,ω的外接矩形坐标是(0,0,w,h),把ω均分成4×4个小块,每个小块上计算3个特征:块黑像素密度、块重心水平、竖直坐标,定义:δ(x,y)=10<x1,0<y10else---(8-1)]]>M(x,y)=Σi=0wΣj=0hδ(x-i,y-j)Iw(i,j)---(8-2)]]>黑象素密度,块重心水平坐标,块重心竖直坐标则根据下列公式计算:f1=0h0wM(x,y)dxdyh×w---(8-3)]]>f2=0h0wM(x,y)xdxdy0h0wM(x,y)dxdy---(8-4)]]>f3=0h0wM(x,y)ydydx0h0wM(x,y)dxdy---(8-5)]]>把f1,f2,f3映射到[0,255],得到最终使用的特征计算每个小块的得f1,f2,...,f48;计算整个符号的得到f49,f50和f51;计算整个符号的宽高比r并映射到[0,255],用f52表示;r=wh---(8-9)]]>这样,字符ω可以用识别特征向量feat表示,feat=(f1,f2,...,f52);其中,符号h表示字符实际高度;符号w表示字符实际宽度;2)字符结构特征的抽取:如果待识别字符ω的所有训练字样ωi在点(x,y)处的取值都相同,那么点(x,y)就是一个稳定点;否则点(x,y)就是一个非稳定点;根据式(8-11)和式(8-12),得到ω的稳定黑点图B及稳定白点图W;Bω=iIωi---(8-11)]]>wω=iIωi---(8-12)]]>然后分别对B和W进行黑特征点抽取和白特征点抽取,得到待识别字符结构ω的识别结构特征;第4.2.1、首先应用字符统计特征进行粗分类,计算待识别字符与样本字符的统计特征向量距离,并选择距离较小的样本作为候选识别结果;定义向量距离函数如下:DIS(feat1,feat2)=Σi=152(feat1·fi-feat2·fi)252---(8-13)]]>那么满足式(8-14)的符号ωk就是待识别符号ω的候选识别结果。DIS(featω,featωk)=minωiΩDIS(featω,featωi)---(8-14)]]>其中,符号DIS表示特征向量间的距离;feat表示特征向量;fi表示特征元素;第4.2.2、应用字符的结构特征对上步确认的候选字进行验证,通过待识别字符与候选样本字符间黑点图与白点图的匹配,选择失配点最少的样本作为最终识别结果;第4.3、特殊数学字符的识别特殊符号指的是宽高比例r不固定的符号,包括:水平直线,竖直直线,水平方向箭头,竖直方向箭头,根号;特殊字符的识别需要针对不同符号的特殊结构特征,设计符号专用的识别分析方法:第4.3.1、方向箭头识别,利用投影的方法,将方向箭头符号分成三个部分:符号头部、符号尾部和符号中部,符号中部是一条或两条直线,很容易识别,而符号头部和符号尾部的形状比较复杂,采用了特征点匹配的识别方法;在符号识别阶段,对宽高比例异常的符号利用投影的方法被切割成三部分分别识别,如果三个部分的识别结果能够组合成合法的方向箭头符号,那么这个方向箭头符号就是识别结果;第4.3.2、根号识别,根据根号的结构和语法特征,我们定义以下条件,如果一个待识别字符ω满足这些条件,我们就认为它是一个根号:(1)ω外接矩形面积大于一般符号的外接矩形面积;(2)ω所在区域包含其他符号;(3)从ω左侧向右或下侧向上,沿扫描线深入ω所在区域超过一半,不会遇到黑像素阻挡;(4)ω最上部存在一条水平直线;(5)ω最下部存在一个拐点;第4.3.3、竖直直线识别,如果待识别符号ω的宽高比r<TVLR,并且ω不是竖直箭头符号,那么就认为ω就是竖直直线;其中TVLR是竖直直线宽高比例的最大阈值;竖直直线除了可以作为一个符号单独存在以外,还有可能是符号“||”的一部分,所以,如果存在两条竖直直线相邻,并且高度相同,距离接近,那么就合并这两条竖直直线为“||”;第4.3.4、水平直线识别,如果待识别符号ω的宽高比r>THLR,并且ω不是水平箭头符号,那么就认为ω就是水平直线;其中THLR是水平直线宽高比例的最小阈值;水平直线的含义很多,我们可以根据其上方和下方存在的符号的数量,以及这些符号和水平直线的位置关系,来对水平直线具体内容进行判断;第4.4、基于熵与熵降的专用识别分类器设计字符识别分类器用于快速找到与待识别字符特征匹配的样本字符,从而得到准确的识别结果;该识别分类器选用决策树作为本识别的模型,在分类树的建立过程中使用基于熵降的聚类算法;决策树的建立过程如下,[决策树建立算法]初始状态:输入对象为数学符号集中所有字符,建立空的决策树根节点,步骤1:初始化当前节点类别信息;步骤2:设计数参数N值为1;步骤3:使用K-means聚类算法,对节点字符集中的字符进行聚类,K取值为当前N值;步骤4:记录增益最大的聚类结果;步骤5:令N值加1,若N值小于阈值,重复步骤3;步骤6:将聚类结果保存到当前决策树节点中;步骤7:若当前节点没有达到叶节点,建立新节点,重复步骤1;在决策树的每一层聚类过程中,根据样本符号的特征向量反复使用K-means聚类算法聚类,并选取具有最大增益的分类作为当前节点的聚类结果;这样的策略能够保证每一次的聚类都是增益最大,保证了熵降比较大和覆盖比较小之间的一个最优平衡;第5、数学公式结构的分析与理解基于数学公式结构描述规则库,采用“自顶向下”的处理流程对数学公式的结构进行迭代式的分析;首先通过版面信息找到公式的核心骨干层次,然后利用语法和句法规则将该层次转换为一棵能反映公式正确计算顺序和结构的句法树;当该层次全部分析完成,再从公式中找到次级核心骨干层次,对句法树进行扩充;不断重复这一过程,直到公式结构分析全部完成;本文采用树型结构描述数学公式,每一个操作符的树型结构都是与其对应的句法规则的一个实例;处理流程描述如下:[数学公式结构分析算法]初始状态:处理对象为公式中所有符号,创建空的根结点,步骤1:进行版面结构分析,提取第一层次的所有字符;步骤2:应用语法规则,确定核心操作符集;步骤3:应用句法规则,判断操作符优先级,按优先级顺序将核心操作符的子表达式结构填充到结构树中;步骤4:选择公式中次高级别的骨干层次作为下一个处理对象,跳至第一步,循环重复,直至结构分析完成;采用以上算法,数学公式图像的识别结果可以最终被组织成遵循计算顺序的树型结构;第6、数学公式结构的表示与格式化输出第6.1、针对数学公式的版面结构,其表示和格式化输出体现在以下几个方面:第6.1.1、自动转化为LATEX、或MathML格式,实现版式重现;第6.1.2、兼容各种数学公式编辑器,将识别和分析结果自动输入到公式编辑器中,为下一步的手工修改和编辑奠定基础;第6.2、针对数学公式的语义结构,其表示和格式化输出体现在以下几个方面:第6.2.1、以运算符和定界符为线索,将数学公式依据优先级和运算关系转化为语义结构树,清晰表达数学公式含义;第6.2.2、将数学公式语义结构自动转化为Matlab计算工具的程序代码,实现自动化编程;或自动转化为MathML脚本语言,满足数学公式的网络化传播。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200810053443.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top