[发明专利]基于混合向量量化的最近邻搜索方法在审

专利信息
申请号: 201710356737.0 申请日: 2017-05-19
公开(公告)号: CN107193938A 公开(公告)日: 2017-09-22
发明(设计)人: 赵万磊;杨杰;文翔焕 申请(专利权)人: 厦门大学;悟图索智公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 厦门南强之路专利事务所(普通合伙)35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于混合向量量化的最近邻搜索方法,涉及信息检索与多媒体检索。该类方法与现有向量量化方法不同的是,它对低阶余向量(一阶为原向量)采用传统余向量量化方式,而对高阶余向量,将它的方向向量和能量分别量化。一方面,向量量化后的低阶码将用来生成倒排索引结构的索引键值;另一方面,对每一高阶余向量进行分解。把一个向量分解为方向向量和能量。对方向向量和能量分别量化。与其他已有的量化方法相比,该方法训练码本以及量化过程都比目前的方法简单,同时取得较好的编码准确率。
搜索关键词: 基于 混合 向量 量化 近邻 搜索 方法
【主权项】:
基于混合向量量化的最近邻搜索方法,其特征在于包括以下步骤:1)混合向量量化的编码方法:给定一个向量v∈RD,对其前i阶的余向量(第一阶为向量本身)进行余向量量化,后面j阶的每阶余向量对其方向向量(归一化后的向量)和能量分别编码;假设i=2,j=2,则其编码形式如下:v≈ωi1(1)+ωi2(2)+e0·(p1·ωi3(3)+e1·(p2·ωi4(4)))---(1)]]>在公式(1)中,和分别是第一和第二阶码本中距离余向量最近的单词,e0和e1分别是后两阶能量码本中距离能量最近的单词,和分别是后两阶方向码本中距离方向向量最近的单词,p1和p2分别是后两阶的方向向量在其最近的单词上的投影;在编码中,设总的编码阶数为n,即n=i+j,则其中i由具体的问题确定,若待检索的数据集很大,则i的值大;因为前面i阶将用作生成倒排索引结构的索引,i值越大所能生成的索引值越多,可以索引的数据量也越大;目的是把数据集尽量打散,保证每次最近邻查询都只访问少量的候选向量;2)基于低阶余向量量化编码的倒排索引结构:(1)设采用四阶编码,即n=4,经过步骤1),输入向量q将编码为c1c2c3h0c4h1;其中,c1c2为余向量量化后的编码,这两个编码将合并作为倒排表的索引键值,即I=c1c2,而余下的编码将存放在倒排表该索引键值所对应的链表中;(2)链表的每一项存放了候选向量的标记和余下的高阶编码,例如n=4情形下链表中每个候选项为<ID,c3h0c4h1>;3)基于层级剪枝的在线搜索策略:(1)给定查询点q,搜索过程首先计算查询点q到每一个倒排索引键值的距离,这时需要把键值I拆分为c1和c2,c1和c2分别对应第一阶码本中的向量和和第二阶码本中的向量计算查询q到I的距离,转化为计算q到合成向量之间的距离,即可以写为如下形式:在公式(2)的计算中,为了加快计算速度,可以先算q到的距离,即公式(2)中的term1,这样可以得到q到第一阶每个码的距离,根据q到每个码的距离排序;忽略排在后面95%的一阶码对对应的索引项,对于剩下的5%的一阶码,进一步计算q到两阶编码所得到组合向量VI的距离,同样地,当计算q到所有两阶编码之间的距离之后,可以根据这一距离排序,然后忽略排在后面90%的索引项,即只考虑倒排表中排在前面的链表,进行查找,这一方式可以扩展到i>2的情形;在公式(2)的计算中,和可以预先计算,然后通过查表获得;因此公式(2)的计算可以快速实现;(2)经步骤(1)之后,查询计算q到候选链表中每一个候选项的距离,计算的公式如下,注意到公式(2)的计算结果可以加入到公式(3)的计算中以加快计算速度:d(q,v)=||q-v||22=q·qt-2·v·qt+v·vt=q·qt-2·(ωi1(1)·qt+ωi2(2)·qt+e0·(p1·ωi3(3)·qt+e1·p2·ωi4(4)·qt))+v·vt=q·qt+v·vt-2·(d(q,I)+e0·(p1·ωi3(3)·qt+e1·p2·ωi4(4)·qt))---(3)]]>(3)步骤(2)之后,查询将获得q到经过混合编码的候选向量的距离,查询对距离排序,然后输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学;悟图索智公司,未经厦门大学;悟图索智公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710356737.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top