[发明专利]基于法律数据的知识图谱构建方法及系统有效

专利信息
申请号: 201711006520.3 申请日: 2017-10-25
公开(公告)号: CN107908671B 公开(公告)日: 2022-02-01
发明(设计)人: 杜向阳;梁雁圆 申请(专利权)人: 南京擎盾信息科技有限公司;杜向阳;梁雁圆
主分类号: G06F16/36 分类号: G06F16/36;G06Q50/18
代理公司: 南京众联专利代理有限公司 32206 代理人: 叶涓涓
地址: 210000 江苏省南京市雨*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了基于法律数据的知识图谱构建方法及系统,方法包括:构建法律词典步骤,提取法律短语步骤,预处理法律文本步骤,初步构建法律知识步骤,识别法律实体步骤,识别法律关系步骤,构造法律知识链步骤;系统包括法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块。本发明实现了针对法律数据构建知识图谱,能够在多个法律案由,如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱,为法律行业的上层应用提供了走向智能化的数据。
搜索关键词: 基于 法律 数据 知识 图谱 构建 方法 系统
【主权项】:
基于法律数据的知识图谱构建方法,其特征在于,包括如下步骤:步骤1,构建法律词典首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:其中W1,W2为法律词汇的词向量;最后筛选有效的候选法律词;步骤2,提取法律短语通过互信息和信息熵分别提取组合词语,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组;其中,互信息计算公式为:X和Y为两个法律词,P(X,Y)为X和Y的联合概率,P(X)、P(Y)为X和Y的概率;信息熵具体计算公式如下:EL(W)=-Σ∀a∈AP(aW|W)·logP(aW|W)]]>ER(W)=-Σ∀b∈BP(Wb|W)·logP(Wb|W)]]>步骤3,预处理法律文本将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析,完成法律语料文本的预处理;步骤4,初步构建法律知识定义法律知识图谱中法律实体、法律关系、三元组、概念层次图及其他相关概念,标注相关的法律数据语料;步骤5,识别法律实体对已标注的法律文本数据,进行实体特征的抽取,并将抽取的特征通过模型计算,实现法律实体自动识别,模型计算过程如下:句子沿着标签的路径,计算出概率转移矩阵和网络的分数表示为:s([X]1T,[i]1T,θ~)=Σt=1T([h(θ)][i]t,t+[P][i]t-1,[i]t)]]>其中,为模型的输入层,即输入的句子表示;[h(θ)]i,t为句子的第i个标签的第t个词;[P]i,j为转移概率矩阵表示对于一对连续的时间步长从第i个状态转换到第j个状态的转变矩阵;神经网络可训练的参数记为θ;模型所有参数可表示为步骤6、识别法律关系对法律专家标注的法律文本数据,使用法律关系规则模板,从文本中学习法律文本的关系表达式,采用机器学习与模板规则结合的方法提取法律关系;步骤7、构造法律知识链基于原始法律文本,采用步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京擎盾信息科技有限公司;杜向阳;梁雁圆,未经南京擎盾信息科技有限公司;杜向阳;梁雁圆许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711006520.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top