[发明专利]一种基于Word2Vec的中文问答语义相似度计算方法有效
申请号: | 201710661607.8 | 申请日: | 2017-08-04 |
公开(公告)号: | CN107436864B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王春辉 | 申请(专利权)人: | 识因智能科技(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/33 |
代理公司: | 北京国坤专利代理事务所(普通合伙) 11491 | 代理人: | 赵红霞 |
地址: | 100043 北京市石景山区八*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。本发明的有益效果是:提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率,综合重合关键词的文本相似度与非重合关键词的语义相似度,一方面引入语义,解决了关键词高度重合的文本语义相似度计算问题,另一方面避免了短文本造成的语义相似度计算存在较大误差的问题,提高了中文语句相似度计算的准确性。 | ||
搜索关键词: | 一种 基于 word2vec 中文 问答 语义 相似 计算方法 | ||
【主权项】:
一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于,包括以下步骤:步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;步骤B,向量表示,假设有两个中文文本:S1以及S2,经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...,W1m},CS2:{w21,w22,...,w2n},通过计算两个集合CS1和CS2的并集得到CS,CS=CS1∪CS2={w1,w2,...,wk}其中k≤m+n;步骤C,相似度计算,集合会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710661607.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种带滑轮的储物柜
- 下一篇:一种便于搬移的储物柜