[发明专利]企业关系提取方法、装置及存储介质有效
申请号: | 201711061205.0 | 申请日: | 2017-11-02 |
公开(公告)号: | CN107943847B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 徐冰;汪伟;罗傲雪;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06Q10/06 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;郭梦霞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种企业关系提取方法、装置及存储介质,该方法包括:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;从样本库中抽取包含一个企业实体对的所有训练样句并分词,将每个词映射成词向量xi,映射成句子向量Si;用LSTM计算词向量xi的第一隐藏层状态向量hi和第二隐藏层状态向量hi’,拼接得到综合隐藏层状态向量,再得到特征向量Ti;将特征向量Ti代入平均向量表达式算出平均向量S;将平均向量S及企业实体对的关系类型代入softmax分类函数算出每个训练样句的权重ai;提取包含两个企业实体的句子,经过bi‑LSTM得到特征向量Ti,输入到训练好的RNN模型,预测该两个企业的关系,减少人工成本,更准确的预测该两个企业实体间的关系。 | ||
搜索关键词: | 企业 关系 提取 方法 装置 存储 介质 | ||
【主权项】:
1.一种企业关系提取方法,其特征在于,所述方法包括:样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;计算步骤:在循环神经网络模型的第三层,根据所述企业实体对的每个训练样句的特征向量Ti,利用平均向量表达式表示所述企业实体对的平均向量S:S=sum(ai*Ti)/n,其中ai代表每个训练样句的权重、为待定值,Ti代表每个训练样句的特征向量,n代表训练样句的数量;权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai,得到训练好的循环神经网络模型;预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711061205.0/,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置及电子设备
- 下一篇:一种泛在时空信息关联与聚合方法