[发明专利]一种基于多核典型相关分析的视频检索方法有效
申请号: | 201310438216.1 | 申请日: | 2013-09-23 |
公开(公告)号: | CN103559196B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 卜佳俊;高珊;李平;陈纯;何占盈;宋明黎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06T7/00 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于多核典型相关分析的视频检索方法,从互联网上抓取视频及对应的文本描述后,针对每个视频进行如下操作首先根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;然后利用多核典型相关分析方法得到视频特征和词频特征的映射矩阵及其低维表示,使它们在低维空间的相关性最大;最后,当用户输入关键词做视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果。本方法的优点在于增强视频内容和检索关键词的相关程度,提高用户的检索精度。 | ||
搜索关键词: | 一种 基于 多核 典型 相关 分析 视频 检索 方法 | ||
【主权项】:
一种基于多核典型相关分析的视频检索方法,该方法的特征在于从互联网抓取视频后,针对每个视频进行以下操作:1)根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;2)利用多核典型相关分析方法,分别获取视频特征和词频特征的映射矩阵,从而获得两者对应的低维表示,使它们在低维数据空间的相关性最大;3)当用户输入关键词进行视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果;所述的步骤1)中所述的处理视频及其对应文本描述的方法,具体是:11)视频镜头切割时,采用双比较方法,设Tb为检测镜头突变的阈值,Ts为检测镜头渐变的阈值,用差值度量法检测相邻帧的差值,若差值大于Tb,则属于镜头突变,应进行镜头切分,若差值小于Tb大于Ts,则有可能属于镜头渐变,此时需要将该帧与后续帧进行比较,若帧间差值小于Ts,但相邻帧之间差值累加和大于Tb,则意味着的确属于镜头渐变;12)提取关键帧时,首先先将镜头的首尾帧设定为关键帧,因为首帧通常为了吸引观众代表了镜头的主题,尾帧希望观众回味往往用一种特写表示,首尾帧确定后,还要选取变化显著的帧作为关键帧,即将镜头中非关键帧的每一帧依次与关键帧进行比较,如果差异较大,将其作为关键帧,依次比较下去直到比完镜头中所有非关键帧,之后还要根据帧平均法选取关键帧,即在某个指定位置上,计算所有帧像素值的平均值,关键帧为像素值最接近平均值的帧;13)关键帧特征提取时,静态图像的视觉特征提取颜色、形状、纹理,镜头运动特性提取镜头运动变化、运动轨迹、运动目标大小,形成视频的视频特征表示;14)对视频文本描述进行分词,统计词频,形成其词频特征表示;所述的步骤2)中所述的多核典型相关分析方法,具体是:21)将训练样本视频总数设为n,用m维向量Xi来表示第i个视频的视频特征,将n个m维的向量Xi合并成矩阵X,代表视频特征矩阵,同理,用k维向量Yj来表示第j个视频对应的文本描述的词频特征,将n个k维的向量Yj合并成矩阵Y,代表词频特征矩阵;22)利用高斯核函数公式计算出X的Gram矩阵Kx,其中Kx为n行n列的矩阵,||·||2表示向量的l2范数,实数参数σ表示高斯核的带宽,通过设置不同的σ,可以得到一组具有不同非线性结构的高斯核,同理,对Y应用二维多项式核函数公式计算出Y的Gram矩阵Ky,其中(·)T表示向量或矩阵的转置,参数c为大于等于0的核函数参数,通过设置不同的c,可以得到一组具有不同非线性结构的多项式核;23)将进行核函数转化后的Kx,Ky进行归一化处理;24)基于多核典型相关分析的视频检索方法的目标函数表达式为:maxα,βWxTKxKyWx(WxTKx2Wx+κWxTKxWx)·(WyTKy2Wy+κWyTKyWy),]]>subjectto(WxTKx2Wx+κWxTKxWx)=1,(WyTKy2Wy+κWyTKyWy)=1,]]>求解上述目标函数表达式等价于求解下述广义特征值问题:(Kx+κI)‑1Ky(Ky+κI)‑1KxWx=λ2Wx,根据需要,取(Kx+κI)‑1Ky(Ky+κI)‑1Kx前p个最大的特征值对应的特征向量构成n行p列的矩阵作为Kx对应的映射矩阵,p表示采用多核典型相关分析的视频检索方法降维后的维度,κ为正实数参数,(·)‑1表示矩阵的求逆,I表示单位矩阵,Ky对应的映射矩阵可根据与之间的关系得到:Wyp=(Ky+κI)-1KxWxpλ,]]>其中,也为n行p列的矩阵;25)根据新的映射矩阵构造Kx,Ky在新空间下的表示:均为n行p列的矩阵,此时两者的相关性最大;所述的步骤3)中所述的检索匹配方法,具体是:31)将根据用户提交的检索关键词转化为关键词词频特征向量yq,对yq应用拉普拉斯核函数公式计算出yq的n维Gram向量Yj为训练数据Y中的第j个样本,参数c为大于等于0的二维多项式核函数参数;32)根据映射矩阵进行变换,得到关键词词频特征的低维表示,其中为p维向量;33)将向量分别与之前求出的矩阵的每一行,即每个样本依次进行余弦相似度计算,的每个样本均为p维向量,余弦相似度越大表明相似度越高;34)按照余弦相似度从高到低的顺序返回视频结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310438216.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于移动终端的排号系统及方法
- 下一篇:基于情境自动更新文本显示