[发明专利]文本比较方法以及文本比较装置有效
申请号: | 201611114922.0 | 申请日: | 2016-12-07 |
公开(公告)号: | CN108170650B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 方琪 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种文本比较方法以及文本比较装置,有助于解决现有技术的文本比较效率低、准确度不高的技术问题。本发明的文本比较方法,包括:计算第一文本与第二文本之间的汉明距离;若汉明距离小于预设汉明距离阈值,则使用余弦算法计算第一文本和第二文本之间的余弦值;根据余弦值和汉明距离按照预设规则判断第一文本与第二文本的相似程度等级,然后根据相似程度等级发出对应的提示信息。 | ||
搜索关键词: | 文本 比较 方法 以及 装置 | ||
计算第一文本与第二文本之间的汉明距离;
若所述汉明距离小于预设汉明距离阈值,则使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;
根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息。
2.如权利要求1所述的文本比较方法,其特征在于,所述计算第一文本与第二文本之间的汉明距离的步骤包括:根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;
根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
3.如权利要求1所述的文本比较方法,其特征在于,在所述计算第一文本与第二文本之间的汉明距离的步骤之后,还包括:若所述汉明距离大于所述预设汉明距离阈值,则发出用于提示第一文本和第二文本为无关文本的第一提示信息。
4.如权利要求1所述的文本比较方法,其特征在于,所述根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息的步骤包括:若所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第一阈值,则发出用于提示第一文本和第二文本为相同文本的第二提示信息;若所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值,则发出用于提示第一文本和第二文本为相似文本的第三提示信息;若所述余弦值小于等于所述余弦值第二阈值,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;
若所述汉明距离小于等于所述预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第三阈值,则发出所述第二提示信息;若所述余弦值小于等于所述余弦值第三阈值,则发出所述第四提示信息。
5.一种文本比较装置,其特征在于,包括:第一计算模块,用于计算第一文本与第二文本之间的汉明距离;
第二计算模块,用于在所述汉明距离小于预设汉明距离阈值的情况下,使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;
输出模块,用于根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度,然后根据所述相似程度等级发出对应的提示信息。
6.如权利要求5所述的文本比较装置,其特征在于,所述第一计算模块还用于:根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;
根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
7.如权利要求5所述的文本比较装置,其特征在于,还包括:初步提示模块,用于在所述汉明距离大于所述预设汉明距离阈值的情况下,发出用于提示第一文本和第二文本为无关文本的第一提示信息。
8.如权利要求5所述的文本比较装置,其特征在于,所述输出模块还用于:在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相同文本的第二提示信息;
在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相似文本的第三提示信息;
在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第二阈值的情况下,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;
在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值大于余弦值第三阈值的情况下,发出所述第二提示信息;
在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第三阈值的情况下,则发出所述第四提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611114922.0/,转载请声明来源钻瓜专利网。