[发明专利]基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法在审
申请号: | 201711241370.4 | 申请日: | 2017-11-30 |
公开(公告)号: | CN107908773A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 马廷淮;周宏豪;赵雨薇;荣欢;曹杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 唐小红 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。聚焦网络爬虫的两个重要任务是1.在网页上找到有关特定主题的文档;2.对这些网页进行分析并根据其与搜索主题的相关度进行排序。对于第一个任务,本发明提出了一种基于杜威十进制分类理论的算法来获取和分析页面中最有效的HTML结构元素,以及每个未访问链接的主题边界和锚文本。基于此,对未访问页面的主题的预测或发掘就可以获得较高准确率。此算法结合了基于链接和基于内容的方法。对于第二个任务,本发明制作“宝藏图”来实现对相关URL的优先级计算功能,借此做到优先处理那些可能存在更多与搜索目标相关的信息的未访问页面。本发明能充分挖掘网络中的有用信息,提高了聚焦爬虫的运行效率和爬取能力。 | ||
搜索关键词: | 基于 宝藏 链接 内容 结合 聚焦 网络 爬虫 搜索 方法 | ||
【主权项】:
基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法,其特征在于,包括以下步骤:步骤1)抓取器组件从抓取队列中取出一个元素,最初,种子URL被放置在具有最高优先级的队列中;步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应;步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中,响应队列中的响应即实际可获取的页面内容;步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;步骤5)如果被步骤4)视为主题,则页面的特定元素然后被发送到宝藏图进行特定的比较和计算;宝藏图数据用于确定页面中未访问链接的重要性;宝藏图将优先级分数与每个未访问链接相关联;即使脱离主题的URL也会被分配一个设定的最低值作为优先级;步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察更新组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”;步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中;抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿;步骤8)完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中;步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711241370.4/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法