[发明专利]一种基于声学模型阵列的鲁棒语音识别方法有效
申请号: | 201410699802.6 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104392718B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/20 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于声学模型阵列的鲁棒语音识别方法,包括训练阶段和测试阶段。在训练阶段,根据语音的最高频率为训练语音设定多个上限频率,提取多组特征向量,并进行模型训练,得到声学模型阵列。在测试阶段,首先根据测试环境下的少量自适应语音,估计测试语音的上限频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数进行调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测试语音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果。本发明可以提高噪声环境中语音识别系统的性能,提高系统的鲁棒性。 | ||
搜索关键词: | 一种 基于 声学 模型 阵列 语音 识别 方法 | ||
【主权项】:
一种基于声学模型阵列的鲁棒语音识别方法,其特征在于:包括训练阶段和测试阶段两部分;在训练阶段,首先根据语音的最高频率为训练语音设定N个上限频率;然后分别以这N个频率为语音频谱的最高频率,提取特征向量,并进行模型训练,得到声学模型阵列;在测试阶段,首先根据测试环境下的少量自适应语音,估计当前测试环境下语音的上限频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数进行调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测试语音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果;训练阶段(1)根据语音的最高频率为训练语音设定N个上限频率,这N个上限频率在Mel频域等间距分布;(2)分别以N个上限频率为语音频谱的最高频率,提取N组不同上限频率的特征向量:特征1、特征2,…,特征N;(3)分别用特征1、特征2,…,特征N进行模型训练,得到N组不同的声学模型:声学模型1、声学模型2,…,声学模型N,组成声学模型序列;声学模型序列中的每组声学模型除了包括全部语音单元的声学模型外,还包括其特征对应的上限频率,用于后端的声学模型选取;设训练语音库中语音的最高频率为fmax,首先将其转换到Mel频域:Fmax=2595log10(1+fmax700)---(1)]]>其中,Fmax表示Mel频域的最高频率;然后,根据Fmax设定N个语音频谱上限频率:最后,将这N个频率转换到线性频域:fk=700(10k2595NFmax-1),k=1,2,...,N---(2)]]>其中,fk表示第k个语音频谱上限频率;分别以f1,f2,…,fN为语音信号频谱的最高频率,为训练语音提取倒谱特征,得到与f1,f2,…,fN对应的多组特征:特征1,特征2,…,特征N;每组声学模型都包含各个语音单元的HMM,N组声学模型组成声学模型阵列;测试阶段(4)根据测试环境下的自适应语音估计当前测试环境下含噪语音的上限频率,测试语音上限频率必须映射到f1,f2,…,fN中的某个值;(5)根据估得的测试语音上限频率,从声学模型阵列中选取与测试语音上限频率匹配的声学模型;(6)根据自适应语音,对选取的声学模型的参数进行调整,使之与当前测试环境相匹配,得到测试环境声学模型;从声学模型阵列中选取的声学模型与实际测试环境仍然有较大的差异,需要对其参数进行调整才能用于声学解码,一般通过测试环境下的自适应语音对声学模型的参数进行自适应调整;由于自适应数据较少,只调整HMM的均值向量,采用对数谱域线性变换:HMM的第i个状态的概率密度函数可以表示为:bi(ot)=Σm=1Mcim(2π)-d/2|Σim|-1/2exp[-12(ot-μim)TΣim-1(ot-μim)]---(3)]]>其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,d表示特征向量的维数,即Mel滤波器组的通道数目;首先,通过逆离散余弦变换将μim变换回对数谱域:uim=C‑1μim (4)其中,C‑1表示离散余弦变换的逆矩阵,uim是训练环境的对数谱域均值向量;然后,在对数谱域用单变量线性回归逼近训练环境对数谱域均值向量uim与测试环境对数谱域均值向量之间的环境变换关系:u‾im=Uima+b---(5)]]>其中,Uim表示以向量uim的元素为对角元素生成的对角矩阵;向量a、b为线性变换参数;在式(5)两端进行离散余弦变换,得到:μ‾im=C(Uima+b)=Dimw---(6)]]>其中,Dim=Cf[Uim,I],w=[aT,bT]T;为了从自适应语音中估得线性变换参数a、b,构建如下辅助函数:Q(λ‾|λ)=Σi=1NΣm=1MΣt=1Tγim(t)(ot-μ‾im)TΣ‾im-1(ot-μ‾im)---(7)]]>其中,γim(t)=P(θt=i,kt=m|O,λ),表示给定观测向量序列O={o1,…,ot,…,oT}和先验参数集λ的条件下,第t帧向量属于第i个状态的第m个高斯单元的后验概率;将式(6)代入式(7),并令辅助函数并令对向量w的导数为0,即可得到:w=[aT,bT]T=[Σi=1NΣm=1MΣt=1Tγim(t)(Dim)TΣim-1Dim]-1Σi=1NΣm=1MΣt=1Tγim(t)(Dim)TΣim-1ot---(8)]]>得到线性变换参数a、b后,即可根据式(6)更新每个HMM每个高斯单元的均值向量,得到测试环境声学模型;(7)根据估得的测试语音上限频率,为含噪测试语音提取特征向量,并用模型自适应得到的测试环境声学模型对其进行声学解码,得到识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410699802.6/,转载请声明来源钻瓜专利网。