[发明专利]网址净化方法及装置有效
申请号: | 201310632492.1 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103793462A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 周雷;高扬;姜鑫;牛杏媛;蒋英雪 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京工信联合知识产权代理事务所(普通合伙) 11266 | 代理人: | 郭一斐 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网址净化方法,包括以下步骤:将原始网址与可净化的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址模板集合;将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;判断正则表达式匹配成功的模板中是否包含命令字;若是则根据命令字对网址进行处理,转到输出净化后的新网址步骤,否则返回原始网址;输出净化后的新网址。此外本发明还相应地提供一种的网址净化装置。对于具备多种形式的网址,净化后可以判定其是否已经被抓取过,如果已经抓取就不必重复抓取,从而显著的提升爬虫抓取有效网页的能力,节省各种资源。 | ||
搜索关键词: | 网址 净化 方法 装置 | ||
【主权项】:
一种网址净化方法,其特征在于包括以下步骤:将原始网址与可净化的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址模板集合;将所述原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;判断正则表达式匹配成功的模板中是否包含命令字;若是,则根据命令字对网址进行处理,否则返回原始网址;输出净化后的新网址。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310632492.1/,转载请声明来源钻瓜专利网。