[发明专利]基于比例因子系数差值的AAC双压缩音频检测方法有效
申请号: | 201910079177.8 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109785848B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 王让定;黄其娟;严迪群 | 申请(专利权)人: | 宁波大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/008;G10L15/08 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于比例因子系数差值的AAC双压缩音频检测方法,其获取AAC单压缩音频和AAC双压缩音频;然后获取AAC单压缩音频的第一特征向量和第二特征向量,及AAC双压缩音频的第一特征向量和第二特征向量;再融合AAC单压缩音频的第一特征向量和第二特征向量得到AAC单压缩音频的特征向量,融合AAC双压缩音频的第一特征向量和第二特征向量得到AAC双压缩音频的特征向量;利用特征向量进行LIBSVM分类器训练;利用LIBSVM分类器模型对待检测的AAC音频的特征向量进行测试;优点是其能实现低码率转高码率的AAC双压缩音频及同码率的AAC双压缩音频的有效检测,且检测准确率高、计算复杂度较低、鲁棒性较强。 | ||
搜索关键词: | 基于 比例 因子 系数 差值 aac 压缩 音频 检测 方法 | ||
【主权项】:
1.一种基于比例因子系数差值的AAC双压缩音频检测方法,其特征在于包括以下步骤:步骤一:随机选取No个时长一致而风格不同的原始音频,原始音频的格式为WAV格式;然后使用AAC编码器并采用Nb种比特率,分别对每个原始音频进行压缩,得到Nb类具有不同比特率的共N1个AAC单压缩音频;接着使用AAC解码器,对每个AAC单压缩音频进行解压,得到每个AAC单压缩音频对应的解压音频,解压音频的格式为WAV格式;再使用相同的AAC编码器并采用Nb种比特率中大于或等于获取对应的AAC单压缩音频时所采用的比特率的所有比特率,分别对每个AAC单压缩音频对应的解压音频进行压缩,得到
类共N2个AAC双压缩音频;其中,No为正整数,No≥100,原始音频的时长为大于或等于0.5秒,Nb为正整数,Nb≥1,N1=No×Nb,
步骤二:将步骤一中对每个AAC单压缩音频对应的解压音频进行压缩时所采用的比特率与获取该AAC单压缩音频时所采用的比特率相同时得到的AAC双压缩音频作为该AAC单压缩音频相应的同比特率再次压缩后AAC音频;使用与步骤一中相同的AAC解码器,对每个AAC双压缩音频进行解压,得到每个AAC双压缩音频对应的解压音频,解压音频的格式为WAV格式;再使用与步骤一中相同的AAC编码器并采用获取对应的AAC双压缩音频时第二次压缩所采用的比特率,对每个AAC双压缩音频对应的解压音频进行压缩,得到每个AAC双压缩音频相应的同比特率再次压缩后AAC音频;步骤三:提取每个AAC单压缩音频的比例因子系数矩阵,将第n1个AAC单压缩音频的比例因子系数矩阵记为
然后获取每个AAC单压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将
中值在[140,200]范围内的比例因子系数的出现概率记为![]()
其中,n1为正整数,n1的初始值为1,1≤n1≤N1,
的维数为M×N,M表示原始音频中包含的帧的总帧数,N表示比例因子子带数,
表示
中下标为(1,1)的比例因子系数,亦表示第n1个AAC单压缩音频中的第1帧中的第1个比例因子带的系数,
表示
中下标为(1,N)的比例因子系数,亦表示第n1个AAC单压缩音频中的第1帧中的第N个比例因子带的系数,
表示
中下标为(M,1)的比例因子系数,亦表示第n1个AAC单压缩音频中的第M帧中的第1个比例因子带的系数,
表示
中下标为(M,N)的比例因子系数,亦表示第n1个AAC单压缩音频中的第M帧中的第N个比例因子带的系数,
的维数为1×61,
表示
中比例因子系数为140的出现概率,
表示
中比例因子系数为200的出现概率;提取每个AAC单压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵,将第n1个AAC单压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵记为
然后获取每个AAC单压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将
中值在[140,200]范围内的比例因子系数的出现概率记为
其中,
的维数为M×N,
表示
中下标为(1,1)的比例因子系数,亦表示第n1个AAC单压缩音频相应的同比特率再次压缩后AAC音频中的第1帧中的第1个比例因子带的系数,
表示
中下标为(1,N)的比例因子系数,亦表示第n1个AAC单压缩音频相应的同比特率再次压缩后AAC音频中的第1帧中的第N个比例因子带的系数,
表示
中下标为(M,1)的比例因子系数,亦表示第n1个AAC单压缩音频相应的同比特率再次压缩后AAC音频中的第M帧中的第1个比例因子带的系数,
表示
中下标为(M,N)的比例因子系数,亦表示第n1个AAC单压缩音频相应的同比特率再次压缩后AAC音频中的第M帧中的第N个比例因子带的系数,
的维数为1×61,
表示
中比例因子系数为140的出现概率,
表示
中比例因子系数为200的出现概率;同样,提取每个AAC双压缩音频的比例因子系数矩阵,将第n2个AAC双压缩音频的比例因子系数矩阵记为
然后获取每个AAC双压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将
中值在[140,200]范围内的比例因子系数的出现概率记为![]()
其中,n2为正整数,n2的初始值为1,1≤n2≤N2,
的维数为M×N,
表示
中下标为(1,1)的比例因子系数,亦表示第n2个AAC双压缩音频中的第1帧中的第1个比例因子带的系数,
表示
中下标为(1,N)的比例因子系数,亦表示第n2个AAC双压缩音频中的第1帧中的第N个比例因子带的系数,
表示
中下标为(M,1)的比例因子系数,亦表示第n2个AAC双压缩音频中的第M帧中的第1个比例因子带的系数,
表示
中下标为(M,N)的比例因子系数,亦表示第n2个AAC双压缩音频中的第M帧中的第N个比例因子带的系数,
的维数为1×61,
表示
中比例因子系数为140的出现概率,
表示
中比例因子系数为200的出现概率;同样,提取每个AAC双压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵,将第n2个AAC双压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵记为
然后获取每个AAC双压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将
中值在[140,200]范围内的比例因子系数的出现概率记为
其中,
的维数为M×N,
表示
中下标为(1,1)的比例因子系数,亦表示第n2个AAC双压缩音频相应的同比特率再次压缩后AAC音频中的第1帧中的第1个比例因子带的系数,
表示
中下标为(1,N)的比例因子系数,亦表示第n2个AAC双压缩音频相应的同比特率再次压缩后AAC音频中的第1帧中的第N个比例因子带的系数,
表示
中下标为(M,1)的比例因子系数,亦表示第n2个AAC双压缩音频相应的同比特率再次压缩后AAC音频中的第M帧中的第1个比例因子带的系数,
表示
中下标为(M,N)的比例因子系数,亦表示第n2个AAC双压缩音频相应的同比特率再次压缩后AAC音频中的第M帧中的第N个比例因子带的系数,
的维数为1×61,
表示
中比例因子系数为140的出现概率,
表示
中比例因子系数为200的出现概率;步骤四:计算每个AAC单压缩音频的第一特征向量,将第n1个AAC单压缩音频的第一特征向量记为![]()
并计算每个AAC双压缩音频的第一特征向量,将第n2个AAC双压缩音频的第一特征向量记为![]()
其中,
和
的维数为1×61,
表示
中的第1个元素,
表示
中的第61个元素,
表示
中的第1个元素,
表示
中的第61个元素;计算每个AAC单压缩音频的比例因子系数矩阵与每个AAC单压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵的绝对差值矩阵,将
与
的绝对差值矩阵记为
并计算每个AAC双压缩音频的比例因子系数矩阵与每个AAC双压缩音频相应的同比特率再次压缩后AAC音频的比例因子系数矩阵的绝对差值矩阵,将
与
的绝对差值矩阵记为![]()
然后计算每个AAC单压缩音频的第二特征向量,将第n1个AAC单压缩音频的第二特征向量记为![]()
并计算每个AAC双压缩音频的第二特征向量,将第n2个AAC双压缩音频的第二特征向量记为![]()
其中,
和
的维数均为M×N,
表示
中下标为(1,1)的元素,![]()
表示
中下标为(1,N)的元素,![]()
表示
中下标为(M,1)的元素,![]()
表示
中下标为(M,N)的元素,
符号“||”为取绝对值符号,
表示
中下标为(1,1)的元素,![]()
表示
中下标为(1,N)的元素,![]()
表示
中下标为(M,1)的元素,![]()
表示
中下标为(M,N)的元素,![]()
和
的维数均为1×N,
表示
中的第1个元素,
的值为
中第1列的所有元素的平均值,
表示
中的第N个元素,
的值为
中第N列的所有元素的平均值,
表示
中的第1个元素,
的值为
中第1列的所有元素的平均值,
表示
中的第N个元素,
的值为
中第N列的所有元素的平均值;步骤五:获取每个AAC单压缩音频的特征向量,将第n1个AAC单压缩音频的特征向量记为
其中,
的维数为1×(61+N),
表示
中的第1个元素,
表示
中的第61个元素,
表示
中的第62个元素,
表示
中的第61+N个元素,![]()
![]()
符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;同样,获取每个AAC双压缩音频的特征向量,将第n2个AAC双压缩音频的特征向量记为
其中,
的维数为1×(61+N),
表示
中的第1个元素,
表示
中的第61个元素,
表示
中的第62个元素,
表示
中的第61+N个元素,![]()
![]()
符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;步骤六:从每类所有的AAC单压缩音频中随机选取一部分AAC单压缩音频,并从每类所有的AAC双压缩音频中随机选取一部分AAC双压缩音频;然后将选取的所有AAC单压缩音频和选取的所有AAC双压缩音频构成训练集,将剩余的所有AAC单压缩音频和剩余的所有AAC双压缩音频构成测试集;步骤七:训练Nb个LIBSVM分类器,训练第nb个LIBSVM分类器的具体过程为:将训练集中的第nb类的所有AAC单压缩音频的特征向量作为输入,输入到LIBSVM分类器中进行训练,得到第nb个LIBSVM分类器模型,其适用于采用第nb种比特率的单压缩AAC音频的测试;其中,nb为正整数,nb的初始值为1,1≤nb≤Nb;训练
个LIBSVM分类器,训练第n'b个LIBSVM分类器的具体过程为:将训练集中的第n'b类的所有AAC双压缩音频的特征向量作为输入,输入到LIBSVM分类器中进行训练,得到第n'b个LIBSVM分类器,其适用于采用第n'b种比特率的双压缩AAC音频的测试;其中,n'b为正整数,n'b的初始值为1,
步骤八:将测试集中的每个单压缩AAC音频或每个双压缩AAC音频作为待检测的AAC音频;然后根据待检测的AAC音频的公开的比特率,将待检测的AAC音频的特征向量输入到适用于采用公开的比特率的单压缩AAC音频的测试的LIBSVM分类器模型中,得到第一判决结果;并根据待检测的AAC音频的公开的比特率,将待检测的AAC音频的特征向量输入到适用于采用公开的比特率的双压缩AAC音频的测试的LIBSVM分类器模型中,得到第二判决结果;再根据第一判决结果和第二判决结果确定待检测的AAC音频为AAC单压缩音频或AAC双压缩音频,若第一判决结果大于或等于0.5而第二判决结果小于0.5,则确定待检测的AAC音频为AAC单压缩音频;若第一判决结果小于0.5而第二判决结果大于或等于0.5,则确定待检测的AAC音频为AAC双压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果大于第二判决结果,则确定待检测的AAC音频为AAC单压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果小于第二判决结果,则确定待检测的AAC音频为AAC双压缩音频;若第一判决结果和第二判决结果均小于0.5,则认为待检测的AAC音频无法判定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910079177.8/,转载请声明来源钻瓜专利网。