[发明专利]一种相似网络页面的搜索方法及设备在审
申请号: | 201910502242.3 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110390044A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 杨祎;王炜 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 郭鸿 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选页面 页面 目标页 页面标签 内容特征信息 网络页面 文本信息 相似网络 相关度 权重 搜索 标签 互联网技术 相似度筛选 遍历搜索 获取目标 内容特征 页面类型 页面内容 页面搜索 多维度 语料库 网路 构建 预设 | ||
1.一种相似网络页面的搜索方法,其特征在于,包括:
获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
2.根据权利要求1所述的搜索方法,其特征在于,所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度,包括:
基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
其中,Matchpoint为所述页面相关度;为所述第一标签向量;为所述第一内容向量;为所述第二内容向量;[TapWeight]N为基于所述标签权重构成的权重数组;为所述第二标签向量;α和β为预设的常数。
3.根据权利要求1所述的搜索方法,其特征在于,所述根据候选页面包含的页面内容,生成所述候选页面的内容特征信息,包括:
对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
根据所有所述内容关键词生成所述候选页面的内容特征信息。
4.根据权利要求1-3任一项所述的搜索方法,其特征在于,在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后,还包括:
获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
5.根据权利要求1-3任一项所述的搜索方法,其特征在于,所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重,包括:
统计所述候选页面的所述页面内容包含词语总数;
计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910502242.3/1.html,转载请声明来源钻瓜专利网。