[发明专利]基于自适应掩膜和分组线性变换的轻量级语音识别方法有效
申请号: | 202110367779.0 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113113000B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李鹏华;程家伟;刘行谋;张亚鹏;俞方舟;陈旭赢;乐磊;张恩浪;董江林 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 分组 线性变换 轻量级 语音 识别 方法 | ||
1.基于自适应掩膜和分组线性变换的轻量级语音识别方法,其特征在于:该方法包括以下步骤:
S1:基于自适应掩膜注意力机制的编码;
S2:基于分组线性变换;
所述S1具体为:
对于长度为T,维度为d为的语音特征序列X=[x1,x2,…,xt,…,xT]T,其中定义α为缩放点积多头自注意力机制,用于捕获特征序列之间的全局依赖关系;定义β为局部注意力机制,用于获取特征序列的局部关联性;通过自适应掩膜,对β各个表示子空间中的注意力权值作用范围进行动态地学习适配:
其中,Wθ∈[0,W]为可学习的网络参数,其能够控制允许信息反向传播的注意力作用范围;自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值Bt,j;scoret,j为原始注意力得分;abs(·)表示取绝对值,R是用于缓冲的超参数;将Bt,j作用于各表示子空间中自X映射的值向量即得到约束后的表示子空间输出序列
随后,将各表示子空间的输出序列按维度拼接,得到自适应掩膜注意力机制的输出序列;自适应掩膜注意力机制将根据自注意力机制的输出结果,对语音序列进行局部特征提取;并通过耦合叠加的方式,融合全局和局部两种不同层次的信息;最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力;
所述S2具体为:
构建分组切分操作,将输入和输出分成gl组,l为解码网络的层数;然后使用混合器将分组的输入和输出混合,形成扩张和收缩两个阶段的“缩放单元”;
在扩张阶段,分组组数随着网络深度的加深而变多,神经元数量也会变多,反之亦然;
在收缩阶段,“缩放单元”中配置5个配置参数:深度N、宽度因子mw、输入维度dm、输出维度do、最大组数gmax;在扩张阶段,该单元将维度为dm的输入序列映射到更高维度,限制最高维度dmax=mwdm,同时各层层数将会线性地增加到层;在收缩阶段,将维度为dmax的向量线性地降低到do维度,收缩阶段将使用剩余的层:
其中,Yl为一个“缩放单元”中某一层l的输出,π为分组线性变换,π的输入为输入特征序列X或者中间层输出结果γ(X,Yl-1);
过程1:函数γ首先将对Yl-1进行切分,然后使用混合器将切分结果与输入特征序列X的切分结果进行合并,过程1为一个分组线性变换;各层组数的划分依据为:
为进一步实现网络的轻量化,除考虑构筑块内的特征序列维度的扩张和收缩外,还考虑构筑块之间的堆叠所造成的影响;在各个构筑块间引入不同的深度和宽度因子约束:
其中,Nb和为第b块“缩放单元”的深度和宽度因子,B表示总块数,Nmin与Nmax为超参数,为设定的最小深度和最大深度;每个块中,在“缩放单元”之后级联自注意力机制、互注意力机制和前馈网络,形成解码网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367779.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能存储文件柜
- 下一篇:文件数据源入库解析接入方法