[发明专利]一种增量更新与爬取技术在审
申请号: | 201310040088.5 | 申请日: | 2013-02-01 |
公开(公告)号: | CN103970787A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 尹科 | 申请(专利权)人: | 北京英富森信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种增量更新与爬取技术,包括:判断待爬取网页内容的UR是否为静态页面的链接地址;当待爬取网页内容的URL为静态页面的链接地址时,判断所述URL是否爬取过,是则用所述URL替换已存储的URL;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将待爬取网页的内容存储到所述文件夹中。本发明通过每次获取待爬取网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经爬取过,如已经爬取过则不进行爬取,直接将已经爬取过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度。 | ||
搜索关键词: | 一种 增量 更新 技术 | ||
【主权项】:
一种增量更新与爬取技术,其特征在于,包括以下步骤:判断待爬取网页内容的URL链接地址是否为静态页面的链接地址;当所述待爬取网页内容的URL链接地址为静态页面的链接地址时,判断所述待爬取网页内容的URL链接地址是否爬取过,是则找到所述静态页面的存储路径,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;当所述待爬取网页内容的URL链接地址为动态页面的链接地址时,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英富森信息技术有限公司,未经北京英富森信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310040088.5/,转载请声明来源钻瓜专利网。