[发明专利]一种基于Word2Vec的中文问答语义相似度计算方法有效

专利信息
申请号: 201710661607.8 申请日: 2017-08-04
公开(公告)号: CN107436864B 公开(公告)日: 2021-03-02
发明(设计)人: 王春辉 申请(专利权)人: 识因智能科技(北京)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F16/33
代理公司: 北京国坤专利代理事务所(普通合伙) 11491 代理人: 赵红霞
地址: 100043 北京市石景山区八*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。本发明的有益效果是:提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率,综合重合关键词的文本相似度与非重合关键词的语义相似度,一方面引入语义,解决了关键词高度重合的文本语义相似度计算问题,另一方面避免了短文本造成的语义相似度计算存在较大误差的问题,提高了中文语句相似度计算的准确性。
搜索关键词: 一种 基于 word2vec 中文 问答 语义 相似 计算方法
【主权项】:
一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于,包括以下步骤:步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;步骤B,向量表示,假设有两个中文文本:S1以及S2,经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...,W1m},CS2:{w21,w22,...,w2n},通过计算两个集合CS1和CS2的并集得到CS,CS=CS1∪CS2={w1,w2,...,wk}其中k≤m+n;步骤C,相似度计算,集合会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710661607.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top