[发明专利]基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法在审

申请号：	201711241370.4	申请日：	2017-11-30
公开（公告）号：	CN107908773A	公开（公告）日：	2018-04-13
发明（设计）人：	马廷淮;周宏豪;赵雨薇;荣欢;曹杰	申请（专利权）人：	南京信息工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	江苏爱信律师事务所32241	代理人：	唐小红
地址：	210044 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。聚焦网络爬虫的两个重要任务是1.在网页上找到有关特定主题的文档；2.对这些网页进行分析并根据其与搜索主题的相关度进行排序。对于第一个任务，本发明提出了一种基于杜威十进制分类理论的算法来获取和分析页面中最有效的HTML结构元素，以及每个未访问链接的主题边界和锚文本。基于此，对未访问页面的主题的预测或发掘就可以获得较高准确率。此算法结合了基于链接和基于内容的方法。对于第二个任务，本发明制作“宝藏图”来实现对相关URL的优先级计算功能，借此做到优先处理那些可能存在更多与搜索目标相关的信息的未访问页面。本发明能充分挖掘网络中的有用信息，提高了聚焦爬虫的运行效率和爬取能力。
搜索关键词：	基于宝藏链接内容结合聚焦网络爬虫搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法，其特征在于，包括以下步骤：步骤1)抓取器组件从抓取队列中取出一个元素，最初，种子URL被放置在具有最高优先级的队列中；步骤2)爬虫程序组件定位从步骤1)获取的Web文档，尝试下载页面的实际HTML数据，或以其他方式下载服务器的HTTP响应；步骤3)对于步骤2)下载的每个文档，爬虫程序将响应放在响应队列中，响应队列中的响应即实际可获取的页面内容；步骤4)将步骤3)得到的文档交给相关性计算器，处理文档并分析文档是否属于专门的主题；步骤5)如果被步骤4)视为主题，则页面的特定元素然后被发送到宝藏图进行特定的比较和计算；宝藏图数据用于确定页面中未访问链接的重要性；宝藏图将优先级分数与每个未访问链接相关联；即使脱离主题的URL也会被分配一个设定的最低值作为优先级；步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察更新组件，它定期更新宝藏图以便适应当前网络的实际结构，它通常也被称为“看门狗”；步骤7)完成步骤5)所有分析后，相关性计算器将URL及其优先级分数插入到抓取队列中；抓取队列项的优先级得分循环递增，以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作，这种情况称为饥饿；步骤8)完成步骤7)后，所分析网页的HTML数据与所有测量结果一起完全存储在存储库中；步骤9)数据库检查器组件不断地在存储库上运行特定的检查，并更新步骤8)所得存储库的索引，其最终目标是使存储库保持最新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京信息工程大学，未经南京信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711241370.4/，转载请声明来源钻瓜专利网。

上一篇：WebSQL多功能序列实现方法及装置
下一篇：一种文件分类方法、存储介质及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法在审

专利文献下载