[发明专利]一种基于相似度计算的网页变更监测方法和系统有效
申请号: | 201611182671.X | 申请日: | 2016-12-20 |
公开(公告)号: | CN106599242B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 刘坤朋;郑杭;练军 | 申请(专利权)人: | 福建六壬网安股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F21/55;G06F21/56 |
代理公司: | 福州科扬专利事务所 35001 | 代理人: | 徐开翟 |
地址: | 350015 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的一种基于相似度计算的网页变更监测方法和系统,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。 | ||
搜索关键词: | 一种 基于 相似 计算 网页 变更 监测 方法 系统 | ||
【主权项】:
1.一种基于相似度计算的网页变更监测方法,其特征在于,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值;S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0‑100;S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页类型,则进行步骤S6;若所述网页内容属于第二网页类型,则进行步骤S7;S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;S61:结束所述网页内容的监测;S62:发出警告,结束所述网页内容的监测;S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;S71:利用DIFF工具找出所述网页内容相比初始状态的差异;S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;S81:发出警告,结束所述网页内容的监测;S82:结束所述网页内容的监测;S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告;所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建六壬网安股份有限公司,未经福建六壬网安股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611182671.X/,转载请声明来源钻瓜专利网。