[发明专利]一种基于预取的钓鱼网页检测方法无效
申请号: | 201010102071.4 | 申请日: | 2010-01-27 |
公开(公告)号: | CN101820366A | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 张卫丰;贡亮;周国强;张迎周 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08;G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法,在精度、召回率上都有了很大提高。 | ||
搜索关键词: | 一种 基于 钓鱼 网页 检测 方法 | ||
【主权项】:
一种基于预取的钓鱼网页检测方法,其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页,在此基础上提取网站拓扑特征,以此作为钓鱼网页检测的依据,分类器采用增量学习方法,保证了分类器的及时更新,具体实现步骤为:步骤1)网络爬虫获取初始训练集的过程:使用网络爬虫采集m个正规网站即非钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据;使用网络爬虫采集n个钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据,步骤2)训练集的标定过程:将所有钓鱼网站实例数据中分类属性全部填写为“true”,表示钓鱼网站;将所有正规网站实例数据中分类属性全部填写为“false”,表示非钓鱼网站,步骤3)网站拓扑特征的提取过程:包括拓扑结构构造,提取15种数值特征,●网页数量当前网站经过分析页面的数量;●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量,这个可以通过Google提供的搜索功能获取;●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量;●内部链接数量当前被分析网站页面指向本网站页面的链接数量;●页面平均图片数量记录下当前页面中图片数量;●页面平均css文件数量记录下当前页面所使用的css文件数量;●页面平均javascript文件数量记录下当前页面所使用的javascript文件数量;●平均入度所有指向当前页面链接数量(包括本网站和外网的链接);●平均出度当前网站链接向其他页面的链接数量(包括指向本网站和外网的链接);●页面平均表单数量页面源代码中
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010102071.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种左旋奥硝唑的制备方法
- 下一篇:一种自控式化工罐