[发明专利]从检索图像中筛选有用图像的方法有效

申请号：	201410032416.1	申请日：	2014-01-23
公开（公告）号：	CN103778227B	公开（公告）日：	2016-11-02
发明（设计）人：	邓成;王东旭;杨延华;王嘉龙;李洁;高新波	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;朱红星
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种从检索图像中筛选有用图像的方法，主要用于解决当前图像检索排序结果准确率低的问题。其主要实现步骤为：(1)提取数据库图像视觉词袋特征和语义属性特征；(2)离线训练学习视觉词袋特征和语义属性的映射字典；(3)根据用户给出待搜索图像，检索得到初始图像排序列表；(4)根据用户给出待搜索图像，分析视觉单词语义重要性；(5)根据用户给出待搜索图像，分析视觉单词上下文重要性；(6)结合视觉单词的语义和上下文重要性，重新计算待排序图像相关性分数，完成对初始结果的重新排序，以供用户筛选出有用的相关图像。本发明明显提高最终图像检索的准确率，可用于图像检索。
搜索关键词：	检索图像筛选有用方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种从检索图像中筛选有用图像的方法，包括如下步骤：(1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义映射字典：(1a)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征；(1b)通过离线训练学习，针对2659种基本语义属性，分别训练2659种基本语义属性的分类器，在做图像搜索时，对每幅图像用这2659种分类器做预测，将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征，每一维对应一种特定的语义属性；(1c)用映射函数sigmoid将训练图像的语义属性特征映射到0‑1范围，视作语义概率分布，把数据库中所有图像的集合用T＝{1，2，...i...h}表示，h表示数据库中图片的数量大小，i表示数据库中的任意一幅图片，分别提取第i幅图像的视觉词袋词频特征Vⁱ和语义属性的概率分布Aⁱ：Vⁱ＝{p⁽ⁱ⁾(v₁),p⁽ⁱ⁾(v₂),...p⁽ⁱ⁾(v_j),...p⁽ⁱ⁾(v_k)},Aⁱ＝{p⁽ⁱ⁾(a₁),p⁽ⁱ⁾(a₂),...p⁽ⁱ⁾(a_j)....p⁽ⁱ⁾(a_n)}其中，v_j代表一个视觉单词，p⁽ⁱ⁾(v_j)为第i幅图像在v_j这个视觉单词的概率分布值，k表示视觉词袋词频特征的维数，a_j代表一种语义属性，p⁽ⁱ⁾(a_j)为第i幅图像在a_j这个语义属性的概率分布值，n表示语义属性的维数；(1d)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D；(2)初始图像检索排序：(2a)根据视觉词袋词频特征Vⁱ，利用下式计算两幅图像之间的相似性距离F(t)：

<mrow><mi>F</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>Σ</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>k</mi></msub><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mo>*</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>k</mi></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><mo>|</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>*</mo><mo>|</mo><mo>|</mo><msub><mi>X</mi><mi>j</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub></mrow></mfrac></mrow>

其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数；(2b)利用步骤(2a)计算数据库中所有图像与查询图像之间的相似性距离，并按照相似性距离从小到大的顺序对所有图像进行排序，得到所有图像的初始排序结果；(3)根据初始排序结果进行相关性计算：(3a)查询图像的语义近邻图构成查询扩展集合，对扩展集合里所有图像的语义属性概率分布求平均，得到查询相关能反映用户搜索意图的语义属性概率分布Q_avg：

<mrow><msub><mi>Q</mi><mrow><mi>a</mi><mi>v</mi><mi>g</mi></mrow></msub><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><mi>u</mi><mi>m</mi></mrow></mfrac><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>n</mi><mi>u</mi><mi>m</mi></mrow></msubsup><mi>f</mi><mrow><mo>(</mo><msup><mi>A</mi><mi>i</mi></msup><mo>)</mo></mrow></mrow>

其中，num是查询扩展集合中图像的个数，Aⁱ是第i幅图像的语义属性特征的概率分布，f是对应的sigmoid映射函数；(3b)根据视觉语义映射字典D和查询相关能反映用户搜索意图的语义属性概率分布Q_avg，计算视觉单词的查询相关语义权重w₁：w₁＝D×Q_avg(3c)将视觉单词之间的上下文关系表示为如下矩阵：

<mrow><msup><mi>A</mi><mo>′</mo></msup><mo>=</mo><mfenced open = "[" close = "]"><mtable><mtr><mtd><msub><mi>a</mi><mn>11</mn></msub><mn>...</mn><msub><mi>a</mi><mrow><mn>1</mn><mi>n</mi></mrow></msub><mn>....</mn><msub><mi>a</mi><mrow><mn>1</mn><mi>M</mi></mrow></msub></mtd></mtr><mtr><mtd><mn>...</mn></mtd></mtr><mtr><mtd><msub><mi>a</mi><mrow><mi>m</mi><mn>1</mn></mrow></msub><mn>...</mn><msub><mi>a</mi><mrow><mi>m</mi><mi>n</mi></mrow></msub><mn>....</mn><msub><mi>a</mi><mrow><mi>m</mi><mi>M</mi></mrow></msub></mtd></mtr><mtr><mtd><mn>....</mn></mtd></mtr><mtr><mtd><msub><mi>a</mi><mrow><mi>M</mi><mn>1</mn></mrow></msub><mn>...</mn><msub><mi>a</mi><mrow><mi>M</mi><mi>m</mi></mrow></msub><mn>....</mn><msub><mi>a</mi><mrow><mi>M</mi><mi>M</mi></mrow></msub></mtd></mtr></mtable></mfenced></mrow>

其中，i表示数据库中的一幅图像，U表示初始搜索结果的前U幅图，v_m，v_n为视觉词袋词汇中的两个单词，p(v_m|i)是第i幅图像对应的视觉单词中v_m出现的词频，p(i|v_n)表示单词是v_n的情况下对应第i幅图的概率；(3d)根据上下文关系矩阵A'，按照公式w₂^t+1＝(1‑α)P+αA'^T w₂^t进行多次迭代，直到w₂^t+1与w₂^t之间的差值小于0.001时，迭代停止，得到w₂的第t次迭代结果w₂^t，w₂^t作为符合条件的视觉单词中上下文重要性权重，其中，w₂表示所有视觉单词中上下文重要性的权重向量，α是在0‐1之间的一个参数，取值为0.85，P＝(1/k,......1/k)，k为视觉词袋词频特征的维数，A'^T为上下文关系矩阵A'的转置；(3e)根据查询相关语义权重w₁和上下文重要性权重w₂，计算视觉单词权重向量R：R＝βw₁+(1‑β)w₂，其中β为融合系数，取值为0.3；(4)根据视觉单词权重向量R，重新计算数据库中每一幅图像的排序分数F(s)：

<mrow><mi>F</mi><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>Σ</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>k</mi></msub><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mo>*</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>k</mi></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>*</mo><msup><mi>e</mi><msub><mi>R</mi><mi>s</mi></msub></msup></mrow><mrow><mo>|</mo><mo>|</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>*</mo><mo>|</mo><mo>|</mo><msub><mi>X</mi><mi>j</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub></mrow></mfrac></mrow>

其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数，R_s为视觉单词权重向量中第s个词汇的权重；(5)根据得到的每幅图像的排序分数，按照排序分数从大到小的顺序，对数据库中每幅图像做重新排序,用户根据排序分数越大，与查询图像越相关的属性，更准确的筛选出所需要的图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410032416.1/，转载请声明来源钻瓜专利网。

上一篇：一种谷物专用复合生物液态菌肥
下一篇：氧醚三氮唑化合物及其制备方法与应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]从检索图像中筛选有用图像的方法有效

专利文献下载