[发明专利]一种残缺英文单词识别方法有效
申请号: | 201711257234.4 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108171115B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 彭艺;尹玉梅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/34;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种残缺英文单词识别方法,属于信息处理技术领域。本发明通过将英文单词映射为点阵形式,提取单词特征并建立英文单词特征数据库;对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像,对其进行灰度化及二值化后提取英文单词特征并生成特征向量;根据该特征向量的长度从数据库中筛选出目标英文单词集合;进而与目标英文单词集合中经补零或切割操作后的英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度;最后再通过相似融合算法及相似阈值判定,得到待检测残缺英文单词的相似词集合。 | ||
搜索关键词: | 一种 残缺 英文单词 识别 方法 | ||
Step0:提取英文单词特征并建立英文单词特征数据库,将英文单词映射为16×N像素的英文单词点阵,将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵,记8×1像素小矩阵中英文单词所占像素数为pj,j∈[1,2N],观察所有pj,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p1,p2,…,p2N},且将所有英文单词及生成的英文单词特征向量存入数据库,组建英文单词特征数据库P:{P1,P2,…,PM};
Step1:利用现代扫描技术及字母形状特征,从单词载体中提取出待检测残缺英文单词X的图片,将图片以16:NX的比例剪切至待检测残缺英文单词X尽可能铺满图片为止,但要将其残缺英文单词重心处于图片的中心,并留取合适的边距,生成待检测残缺英文单词X的扫描图片
Step2:将待检测残缺英文单词X的扫描图片进行灰度化及二值化,将其按比例切割为16×NX像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺英文单词X的16×NX像素点阵形式;
Step3:将待检测残缺英文单词X的16×NX像素点阵,按照从上至下、从左至右的规则划分为2NX个8×1像素的小矩阵,记8×1像素小矩阵中残缺英文单词所占像素数为pj,j∈[1,2NX],观察所有pj,j∈[1,2NX]并生成待检测残缺英文单词X所对应的英文单词特征向量
Step4:定义Δ为长度误差,从英文单词特征数据库P:{P1,P2,…,PM}中筛选出长度范围在2NX±2Δ内的英文单词特征向量,生成目标英文单词集合P':{P1',P2',…,P'M'};
Step5:将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量Pi':{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量Pi'进行补零和切割操作,使其长度统一;之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词Pi'之间基于余弦定理的词形相似度Sim1(X,Pi');
Step6:将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量Pi':{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量Pi'进行补零和切割操作,使其长度统一;定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词Pi'之间基于欧氏距离的词形相似度Sim2(X,Pi');
Step7:设Step5、Step6步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由词形相似度Sim1(X,Pi')及权值α、词形相似度Sim2(X,Pi')及权值β,由相似度融合算法,即公式(3)计算出待检测残缺英文单词X、目标英文单词Pi'之间的最终词形相似度Sim(X,Pi');
Sim(X,Pi')=Sim1(X,Pi')·α+Sim2(X,Pi')·β (3)
Step8:遍历目标英文单词集合P',对数据库中每个英文单词Pi',i∈[1,M']都经Step5、Step6、Step7步骤,计算其与待检测残缺英文单词X之间的词形相似度Sim(X,Pi'),定义相似阈值θ,如果满足公式Sim(X,Pi')≥θ的要求则将该英文单词添加至相似字集合,最终导出待检测残缺英文单词X的相似词集合S:{S1,S2,…,Sq},其中q是与待检测残缺英文单词X相似的英文单词个数。
2.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step0和Step3中,8×1像素小矩阵中英文单词所占像素数pj应满足公式:0≤pj≤8。3.根据权利要求1所述的残缺英文单词识别方法,其特该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711257234.4/,转载请声明来源钻瓜专利网。