[发明专利]一种简谱图像的自动识别和演奏的方法有效

专利信息
申请号: 201210086072.3 申请日: 2012-03-28
公开(公告)号: CN102663423A 公开(公告)日: 2012-09-12
发明(设计)人: 邹征夏;史振威;姚连生;冯亚春;孙诗炎 申请(专利权)人: 北京航空航天大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/66;G10L13/04
代理公司: 北京慧泉知识产权代理有限公司 11232 代理人: 王顺荣;唐爱华
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种简谱图像的自动识别和演奏的方法,该方法有三大步骤:步骤一、简谱图像预处理;步骤二、简谱基元识别;步骤三、数字音频的生成和播放。本发明在深入分析简谱特征基础上,克服了简谱识别的诸多难点,提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱,正确率均在95%以上;此外,该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果,并且可以实现简谱的实时识别和播放。
搜索关键词: 一种 简谱 图像 自动识别 演奏 方法
【主权项】:
1.一种简谱图像的自动识别和演奏的方法,其特征在于:该方法具体步骤如下:步骤一:简谱图像预处理此阶段的输入为一幅简谱图像,输出为一张剔除歌词、水印无关信息,并经过旋转校正的简谱图像;其作用是为简谱基元的识别窗口划定做好准备,其具体实现过程如下:1.1、自动检测简谱倾斜角度并校正为了纠正扫描输入时造成的简谱倾斜,此阶段采用Hough变换直线检测方法检测简谱下划线倾斜角度,并对倾斜的简谱图像进行旋转校正;1.2、自动去除水印简谱图片的彩色区域,一定是图片中水印的区域,剔除简谱图片中的彩色区域中的信息,避免水印对识别造成的干扰;1.3、简谱图像二值化将输入的简谱图像转换成黑白图像,目标区域像素值为1,背景区域像素值为0;此阶段二值化的方法采用全局最大类间方差阈值法即OTSU,即按照整幅简谱图像灰度特性确定二值化阈值,将简谱图像分成背景和目标两部分,使背景和目标之间的方差最大;1.4、自动分离标题、歌词无关信息从形态各异的歌词、标题及其他干扰信息中提取简谱行的位置是后续识别的基础;首先,将去除水印、旋转校正并二值化之后的简谱图片进行归一化横向投影,得到一个列向量ColumnSum,设图片大小为M×N,则ColumnSum(x)=Σy=1Nf(x,y)N]]>其中,f(x,y)表示整张简谱第x行第y列的像素值,N为简谱图片列数;但在某些简谱中,由于行与行之间的结构过于紧凑,会造成横向投影的粘连,剔除该列向量中元素值小于0.03的元素,剩下的元素所在位置就是数字音符主干、歌词以及标题主干所在行的位置;将小节线作为含有简谱的行的特征进行提取,分离出简谱段;首先,用3×3的掩膜对分离出的每一行块灰度图像进行滤波,f^(i,j)=-f(i-1,j-1)+2f(i-1,j)-f(i-1,j+1)-f(i,j-1)+2f(i,j)-...]]>...f(i,j+1)-f(i+1,j-1)+2f(i+1,j)-f(i+1,j+1)]]>其中,f(i,j)表示简谱块中第i行第j列的像素值;表示滤波后简谱块中第i行第j列的像素值;将滤波后的行块进行二值化处理,对二值化处理之后的简谱块进行纵向归一化投影,RouSum(j)=Σi=1IfB(i,j)I]]>其中,fB(i,j)为滤波并进行二值化后简谱块中第i行第j列的像素值,I为该简谱块的总行数;找出RowSum中大于0.6的元素对应的简谱块中的区域,对这些小区域依次进行Harris角点检测,如果某个小区域的角点数等于2,则认为该行块存在小节线,确认该行块是含有简谱部分的行;否则将该行块所有信息滤除;经过以上处理后,已去除任何无关信息行得到简谱的正文部分;最后将每一块含有简谱的简谱行的起始行坐标存储在向量RowStart中,将终止行坐标存储在向量RowEnd中,则RowStart(m)、RowEnd(m)就表示简谱中第m行有用信息所在的起始行坐标和终止行坐标;步骤二:简谱基元识别其作用是对简谱基元位置进行自动定位、智能识别,识别简谱基元所使用的方法为支持向量机即Support Vectors Machine,SVM;其具体实现过程如下:2.1、识别窗口定位识别窗口的定位包含两方面内容:1)、对存在简谱的谱段中简谱符号基元的位置进行定位,以确定每一个有效基元的位置坐标;2)对简谱标题附近的调式符号基元位置进行定位,以确定简谱调式符号基元的位置坐标,为基元的识别做好准备;2.1.1对存在简谱的谱段中简谱符号基元的位置进行定位首先将包含简谱的行的主干部分进行纵向投影,根据投影所获得的行向量来分离出每一个单独的符号基元的位置,并且将每一个符号基元的列起始坐标存储在向量ColumnStart中,将列终止坐标存储在向量ColumnEnd中;则ColumnStart(n)、ColumnEnd(n)就表示该简谱行中第n个基元所在的起始列坐标和终止列坐标;当前定位位置称之为当前符号基元的“识别窗口”;为了获得更好的简谱图像二值化效果,尽可能多的保留每一块识别窗口所包含的有用信息,此阶段对每一个含有基元的“识别窗口”进行第二次二值化处理,方法是抽取各个识别窗口对应的灰度图像的区域,利用局部最大类间方差法对每个简谱基元区域进行二值化处理;二值化之后将每个含有简谱基元的区域降采样整合为20×20的标准样本,用于接下来分类器识别,绝大部分的简谱中只分离得到14类有用的基元,它们是:数字:“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”,符号:“浮点”、“无效字符”、“小节线”、“延音线”、“升记号”、“降记号”;2.1.2对简谱标题部分的调式符号位置进行定位在每张简谱图片的标题附近都会注明简谱的调式,如“1=C”-C大调演奏方式、“1=bB”-降B大调演奏方式,首先对表示调式的英文大写字母C、D、E、F、G、A、B及升降记号进行定位,一些简谱在标题附近混杂有网址、作者姓名信息,这其中也会包含很多英文大写字母,会对自动检测调式符号的定位造成干扰,通过观察发现,每一张简谱在表示调式的字母前都有“=”这一明显特征,通过模板匹配和投影法的结合使用可以找到“=”所在的位置,继而确定表示调式的英文大写字母、升降记号的位置,接下来同样采取2.1.1中的方法,将含有英文字母、升降记号的识别窗口局部二值化,再整合为20×20的标准字母样本,用于接下来分类器的识别;2.2、构建样本分类器选用“支持向量机”即SVM作为样本分类的方法,SVM在解决小样本、非线性及高维模式识别中表现出特有的优势,并能够推广应用到函数拟合其他机器学习问题中;采用一对一即one-against-one的多分类方法,在该方法中,在每两类样本间都需要训练一个SVM二值分类器,然后将所有的分类器的分类结果进行投票,来决定属于多类样本中的哪一类;对于N分类问题,一共需要训练个SVM二值分类器;2.3、多分类识别此阶段需要对三方面内容进行识别:1)对音符基元的分类,2)对基元周围区域符号的识别,3)对简谱调式基元的分类;2.3.1音符基元的分类音符基元的基本类型为:“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“浮点”、“无效字符”、“小节线”、“延音线”、“升记号”、“降记号”,共14类,所以,一共需要训练C142=14(14-1)/2=91]]>个二值分类器;这里没有对样本进行额外的特征提取,而是直接将二值化后20×20的样本拉伸为400×1的特征向量用于分类器的训练;训练选取的核函数为线性核函数即linear,选取惩罚因子C=8000,每个二值分类器训练所输入的正负样本各250个;2.3.2基元周围区域符号的识别对基元分类完成之后,接下来要对基元周围区域可能出现的辅助符号进行识别,方法如下:设当前识别窗口位于第m行简谱的第n个基元上,则行坐标RowStart(m)、RowEnd(m)和列坐标ColumnStart(n)、ColumnEnd(n)唯一确定了当前识别窗口的位置,接下来在识别窗口的上方和下方分别延拓DetaTop和DetaBase个像素宽度,设DetaTop=c1[RowStart(m)-RowEnd(m)]DetaEnd=c2[RowStart(m)-RowEnd(m)]经过统计得知,当曲谱行与行之间结构较为紧凑时,取c1=0.8,c2=0.5;当曲谱行与行之间结构较为松散时,取c1=2,c2=2;接下来对识别窗口上方和下方延拓区进行分析,进行横向投影和纵向投影,根据两条投影向量确定上下方延拓区是否存在高音记号、低音记号和下划线;2.3.3简谱调式基元的分类简谱调式基元的识别实质上是对C、D、E、F、G、A、B七个大写英文字母以及“升记号”、“降记号”共九类样本的识别,识别方法同样选用SVM,选取一对一即one-against-one的方法构建多类分类器,共需要训练个二值分类器;这里同样没有对调式基元样本进行额外的特征提取,而是直接将二值化后20×20的样本拉伸为400×1的特征向量用于分类器的训练;训练选取的核函数为线性核函数即linear,选取惩罚因子C=8000,每个二值分类器训练所输入的正负样本各15个;步骤三:数字音频的生成及播放其作用是对已经识别完毕的简谱进行后续处理,转化为数字音频文件,并增加伴奏、和声对其进行渲染,使之更加悦耳、动听;其具体实现过程如下:3.1、音符编码音符基元识别结束后,需要对其进行编码处理;每个音符的编码为一个8位二进制编码,占用内存空间1byte;编码的高四位表示“节奏”、“高音低音记号”信息,是对识别窗口上下延拓区信息的记录;编码的低四位表示“数字音高”、“小节线”、“延音线”信息,是对识别窗口内信息的记录;3.2、构建音色库为了模拟各种乐器的播放效果,采集了钢琴、吉他、小号、小提琴10类乐器的音色,音高范围从C2,138.541Hz,C大调低音do,到B4,988.256Hz,C大调高音xi;将其转化为WAV格式的标准音频存储在音色库中供系统调用;3.3音符语义理解、音频播放对一整张简谱完成识别、编码之后,需要结合每一个音符所处的上下文环境来对其实际含义进行理解,这里采用的是一种多级流水线式的理解型智能播放方法,即每次读取音符编码队列中的某个编码,同时对之前某一位编码对应的音频文件进行播放,同时根据编码队列自动计算出该音符的播放时长,并且智能添加变奏、调整音强;3.4、伴奏的构建提供一种简单有效的自动添加伴奏的方法,可以使播放效果更加饱满、富有感染力;3.4.1自动调整强音在每次将要播放当前音符时,查询前一个音符是否为“小节线”,如果是,则该音符作为每小节的第一拍,音强需要加重,否则不做处理;3.4.1自动添加鼓点添加鼓点的原理同上,但之前需要计算两个小节线之间的节拍数是2拍、3拍还是4拍;如果每两个小节间的音符共有2拍,则歌曲是拍节奏型,在播放第一拍的同时播放拍节奏鼓点;如果每两个小节间的音符共有3拍,则歌曲是拍节奏型,在播放第一拍的同时播放拍节奏鼓点;如果每两个小节间的音符共有4拍,则歌曲是拍节奏型,在播放第一拍的同时播放拍节奏鼓点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210086072.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top