[发明专利]一种基于预取的钓鱼网页检测方法无效

申请号：	201010102071.4	申请日：	2010-01-27
公开（公告）号：	CN101820366A	公开（公告）日：	2010-09-01
发明（设计）人：	张卫丰;贡亮;周国强;张迎周	申请（专利权）人：	南京邮电大学
主分类号：	H04L12/26	分类号：	H04L12/26;H04L29/08;G06F17/30
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	叶连生
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类，主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心，调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练，并采用增量更新的方式，保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征，该特征将被保存在训练集数据库中，同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页，并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法，在精度、召回率上都有了很大提高。
搜索关键词：	一种基于钓鱼网页检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于预取的钓鱼网页检测方法，其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页，在此基础上提取网站拓扑特征，以此作为钓鱼网页检测的依据，分类器采用增量学习方法，保证了分类器的及时更新，具体实现步骤为：步骤1)网络爬虫获取初始训练集的过程：使用网络爬虫采集m个正规网站即非钓鱼网站的数据，其中m＞＝200，并抽取出特征量组织成实例数据；使用网络爬虫采集n个钓鱼网站的数据，其中m＞＝200，并抽取出特征量组织成实例数据，步骤2)训练集的标定过程：将所有钓鱼网站实例数据中分类属性全部填写为“true”，表示钓鱼网站；将所有正规网站实例数据中分类属性全部填写为“false”，表示非钓鱼网站，步骤3)网站拓扑特征的提取过程：包括拓扑结构构造，提取15种数值特征，●网页数量当前网站经过分析页面的数量；●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量，这个可以通过Google提供的搜索功能获取；●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量；●内部链接数量当前被分析网站页面指向本网站页面的链接数量；●页面平均图片数量记录下当前页面中图片数量；●页面平均css文件数量记录下当前页面所使用的css文件数量；●页面平均javascript文件数量记录下当前页面所使用的javascript文件数量；●平均入度所有指向当前页面链接数量(包括本网站和外网的链接)；●平均出度当前网站链接向其他页面的链接数量(包括指向本网站和外网的链接)；●页面平均表单数量页面源代码中

标签的数量；●页面平均输入控件数量页面源代码中标签数量；●页面平均输入密码框数量页面源代码中包含“type＝”password””的“”标签数量；●平均链接外部网站数量当前页面指向外部网站的数量；●表单链接比例通过中action进行页面跳转的链接数量除以所有当前页面所有链接的比值，即：页面平均表单数量/平均出度；●动态页面比例当前网站中动态页面与所有页面数量的比值，其中，动态页面即以php，aspx，asp，jsp等后缀结尾的页面，静态页面即以html，html等后缀结尾的页面；步骤4)分类器训练过程：分类器的选择，采用增量学习方法，以及分类器参数优化；步骤5)对疑似钓鱼网页的检测过程：使用网络爬虫对可疑站点预取一定数量的网页，并抽取所采集几个网页的特征数据；将抽取出的特征数据送入训练好的分类器进行分类；根据分类结果给出警告信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010102071.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于预取的钓鱼网页检测方法无效

专利文献下载