[发明专利]一种基于垂直搜索引擎的图文知识库构建方法在审
申请号: | 201611014342.4 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106776710A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 雷方元;戴青云;赵慧民;蔡君;魏文国;罗建桢 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林瑞云 |
地址: | 510660 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 垂直 搜索引擎 图文 知识库 构建 方法 | ||
技术领域
本发明涉及图文知识库构建,尤其是一种基于垂直搜索引擎的图文知识库构建方法。
技术背景
随着移动互联网的快速增长,通过智能终端搜索查询百科知识的需求快速增长。目前,百科知识分布于很多相关的专业网站,如维基百科,百度百科,互动百科。可以使用通用搜索引擎来获取到相关的知识。
这些知识库通常体量庞大,图文并茂,同一知识往往分布于不同网站中,很难一次性地获取到该类知识的全面信息。同时,这些百科知识网站仅仅提供分类查询和文本检索功能。因此,利用垂直搜索引擎来构建可以提供图文查询功能的图文知识库,实现图文知识的快速分享。
发明内容
针对现有技术中的不足,本发明提供一种基于垂直搜索引擎的图文知识库构建的方法。在服务器中根据主题的要求定时定向抓取百科类网站的网页,并根据主题关键词来分析网页中的内容,实现图文分离的关联,在此基础上对其中的图像提取其纹理等特征,构建按照关键词名次和图像特征索引的数据库。在后续检索时可以提供文本和图像检索。该方法提高了知识库的专业性,解决知识库不能够提供基于图像检索的问题。
按照本发明所提供的设计方案,一种基于垂直搜索引擎的图文知识库构建的方法,具体包含以下步骤:
步骤1.在服务器后台定时定向抓取百科类网站的网页。
步骤2.分析抓取的网络百科知识内容,图文分离网页内容。
步骤3.提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征。
步骤4.按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储。
步骤5,检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述。
进一步,步骤1中,所述服务器后台定时定向抓取百科类网站的网页,具体为:首先设置包括维基百科中文网、百度百科、互动百科在内的多个百科知识网站作为知识库的信息源头,然后对这些网站的分类结构进行分析,根据所设定的主题,选择该主题类别的网页进行定时抓取,以获得相关主题网页的URL。
进一步,步骤2中,所述的分析抓取的网络百科知识内容,图文分离网页内容,具体是将网页中的文本信息提取存储,将网页中的图片/图像保存。
进一步,在步骤3中,所述的提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征,具体为:将图像进行尺寸归一化,然后分别提取图像的纹理特征T,颜色特征C和形状特征S,并对这三种特征分别赋予权重w1,w2,w3,且w1+w2+w3=1,图像的加权特征F=w1T+w2C+w3S。
优选的,所述的提取纹理特征,采用Gabor滤波器提取图像的纹理特征;
优选的,所述的图像的颜色特征,采用RGB颜色空间的颜色直方图特征;
优选的,所述的形状特征,采用Fourier描述子来提取形状特征。
进一步,在步骤4中,所述的按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储,具体为:在数据库中,将关键词作为数据库的主键,图像特征作为辅关键词,将文本描述和图像对象进行存储。
优先地,所述的图像对象进行存储,采用将图像对象单独存储到指定分类目录中,在数据库中存储图像对象的存储路径+图像名称。
进一步,在步骤5中,所述检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述,具体为:根据查询对象的情况分为三种类型。第一种、在数据库中可以通过输入待检索的文本在数据库中进行查找,反馈检索到的结果,以及该文本对应的图像;第二种、输入待查询的图像,采用步骤3中的方法计算查询图像的特征值,然后和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本;第三种、输入的为已经计算得到的图像特征值,则直接将查询的特征值和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本。
本发明的有益效果:本发明针对现有的百科知识内容分散,缺乏统一的有效管理,利用垂直搜索引擎来根据指定的知识词库来筛选分析并提取典型百科知识中的相关内容,将这些内容的图文信息进行分析并提取出图像特征和文本描述,进一步来构建图文知识库,构建的知识库提供了基于文本检索、图像检索功能, 提供了一种新的图文知识库的构建和应用方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611014342.4/2.html,转载请声明来源钻瓜专利网。