[发明专利]一种网页抓取方法及系统无效
申请号: | 201110361871.2 | 申请日: | 2011-11-15 |
公开(公告)号: | CN103106219A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 陈华清;吕晴 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 抓取 方法 系统 | ||
技术领域
本发明涉及互联网领域,更具体的说,是涉及一种网页抓取的方法及系统。
背景技术
随着互联网的迅速发展,互联网的网页数量越来越庞大,互联网网页的收集也越来越重要,现有的网页抓取系统,就是一种收集互联网网页内容的系统。它根据一些初始链接集合出发,抓取这些初始链接的原始网页并提取所述原始网页上的新链接,并继续抓取所述原始网页上的新链接所指的网页,如此不断循环迭代抓取互联网上的网页。
所述网页抓取系统基于网页链接库实现网页抓取。而现有的网页抓取系统是将其抓取的所有链接都集中存放到一个网页链接库中,但是现有的网页抓取系统对所述网页链接库的选取操作与更新操作是互斥的。所以所述网页抓取系统对所述网页链接库执行选取操作时,就无法执行对所述网页链接库的更新操作,只能等到所述选取过程结束;同理,如果对所述网页链接库执行更新操作时,所述网页抓取系统也只能等待,直至所述更新操作结束后,才可以执行选取操作。而且对所述网页链接库的不同的选取操作之间也是互斥的,当对所述网页链接库执行当前的选取操作时,就无法执行下一个选取操作;对所述网页链接库的不同的更新操作之间也是互斥的,当对所述网页链接库执行当前的更新操作时,就无法执行下一个更新操作。
所述网页链接库存储了各个链接的抓取状态以及各个链接。所述选取操作指:所述网页抓取系统从所述网页链接库中选取出额定数量的初始链接。所述更新操作指:所述各个链接的抓取状态的更新,因为所述网页抓取系统在抓取网页的过程中,原有的被选取的链接的抓取状态会发现改变,这需要更新到所述网页链接库中。所述更新还包括:增加新链接到所述网页链接库中,因为所述网页抓取系统在抓取网页的过程中,会不断发现到新链接,所以必须将这些新链接增加到所述网页链接库中。
在所述网页抓取系统中,由于存在无法对所述网页链接库同时进行选取和更新操作,这样就使得网页抓取系统抓取到的新链接无法及时更新到网页链接库中,而且所述网页链接库也不能同时进行选取和选取操作以及更新和更新操作,这三方面的原因导致了所述网页抓取系统在抓取网页的链接时存在效率低的技术问题。
发明内容
有鉴于此,本发明提供了一种网页抓取方法及系统,以克服现有技术中无法对所述网页抓取系统中的网页链接库同时进行选取和更新操作、选取和选取操作以及更新和更新操作,而导致的所述网页抓取系统在抓取网页的链接时存在效率低的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种网页抓取方法,所述方法应用的网页抓取系统包括至少两个网页链接库,包括步骤:
A、在任一个网页链接库处于空闲状态的情况下,从所述至少任一个网页链接库中选取额定数量的初始链接,所述空闲状态指所述网页链接库既不处于被选取状态,又不处于更新状态;
B、从所述初始链接对应的各个原始网页中抓取新链接;
C、对于每个待更新链接,所述待更新链接指所述新链接以及所述初始链接,判断所述待更新链接是否存在于任一个网页链接库中,如果是,则进入步骤D,如果否,则进入步骤E;
D、将所述待更新链接存储至包含所述待更新链接的网页链接库对应的链接缓存中,或在包含所述待更新链接的网页链接库处于空闲状态的情况下,根据所述待更新链接的抓取状态更新包含所述待更新链接网页连接库中对应链接的抓取状态;
E、将所述待更新链接追加到任一个网页链接库对应的追加链接缓存中。
一种网页抓取系统,所述系统包括:至少两个网页链接库,以及,
状态检测模块,用于检测任一个网页链接库是否处于空闲状态,所述空闲状态指所述网页链接库既不处于被选取状态,又不处于更新状态;
选取模块,用于在所述状态检测模块的检测结果为是的情况下,从至少任一个处于空闲状态的网页链接库中选取额定数量的初始链接;
抓取模块,用于根据所述初始链接获得与所述初始连接对应的各个原始网页,再从所述各个原始网页中抓取新链接;
重复链接判定模块,用于判断各个待更新链接是否存在于任一个网页链接库中,所述待更新链接指所述新链接以及所述初始链接;
更新模块,在所述重复链接判定模块的判断结果为是的情况下,将所述待更新链接存储到包括所述待更新链接的网页链接库对应的更新链接缓存中,或者,在包括所述待更新链接的网页链接库处于空闲的情况下,根据所述待更新链接的抓取状态更新包括所述待更新链接的网页链接库中对应链接的抓取状态,在所述重复链接判定模块的判断结果为否的情况下,将所述待更新链接追加到任一个网页链接库对应的追加链接缓存中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110361871.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锂离子电池电解液
- 下一篇:一种用于农机链条铆钉的链条固定装置