[发明专利]一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法有效
申请号: | 201811442700.0 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614534B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 李石君;黎文丹;杨济海;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06N3/06 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。本发明的创新点在与构建了可用于增强学习的链接特征向量并将深度学习和增强学习结合用于聚焦爬行过程中的链接价值预测问题。 | ||
搜索关键词: | 一种 基于 深度 学习 增强 聚焦 爬虫 链接 价值 预测 方法 | ||
【主权项】:
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差,用梯度下降法优化神经网络参数并更新两个神经网络的参数;步骤8,将子链接及其相应价值估计值放入待爬行的优先队列;步骤9,重复步骤4至步骤8直至满足停止条件;当满足以下任意条件即可停止:条件一、超过爬行时间阈值;条件二、爬行深度超过深度阈值;条件三、无法获取新的URL地址。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811442700.0/,转载请声明来源钻瓜专利网。