[发明专利]基于法律数据的知识图谱构建方法及系统有效

申请号：	201711006520.3	申请日：	2017-10-25
公开（公告）号：	CN107908671B	公开（公告）日：	2022-02-01
发明（设计）人：	杜向阳;梁雁圆	申请（专利权）人：	南京擎盾信息科技有限公司;杜向阳;梁雁圆
主分类号：	G06F16/36	分类号：	G06F16/36;G06Q50/18
代理公司：	南京众联专利代理有限公司 32206	代理人：	叶涓涓
地址：	210000 江苏省南京市雨***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了基于法律数据的知识图谱构建方法及系统，方法包括：构建法律词典步骤，提取法律短语步骤，预处理法律文本步骤，初步构建法律知识步骤，识别法律实体步骤，识别法律关系步骤，构造法律知识链步骤；系统包括法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块。本发明实现了针对法律数据构建知识图谱，能够在多个法律案由，如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱，为法律行业的上层应用提供了走向智能化的数据。
搜索关键词：	基于法律数据知识图谱构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于法律数据的知识图谱构建方法，其特征在于，包括如下步骤：步骤1，构建法律词典首先下载以及人工标注法律种子词库，同时训练法律文本语料得到法律词向量；然后计算与词向量相似的候选法律词，计算相似度公式为：其中W1，W2为法律词汇的词向量；最后筛选有效的候选法律词；步骤2，提取法律短语通过互信息和信息熵分别提取组合词语，综合这两种方式计算的分数，使用加权平均的方式做排序筛序出短语候选组；其中，互信息计算公式为：X和Y为两个法律词，P(X,Y)为X和Y的联合概率，P(X)、P(Y)为X和Y的概率；信息熵具体计算公式如下：EL(W)=-Σ∀a∈AP(aW|W)·logP(aW|W)]]>ER(W)=-Σ∀b∈BP(Wb|W)·logP(Wb|W)]]>步骤3，预处理法律文本将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词，对原始法律文本数据进行分词、词性标注、句法分析，完成法律语料文本的预处理；步骤4，初步构建法律知识定义法律知识图谱中法律实体、法律关系、三元组、概念层次图及其他相关概念，标注相关的法律数据语料；步骤5，识别法律实体对已标注的法律文本数据，进行实体特征的抽取，并将抽取的特征通过模型计算，实现法律实体自动识别，模型计算过程如下：句子沿着标签的路径，计算出概率转移矩阵和网络的分数表示为：s([X]1T,[i]1T,θ~)=Σt=1T([h(θ)][i]t,t+[P][i]t-1,[i]t)]]>其中，为模型的输入层，即输入的句子表示；[h(θ)]i,t为句子的第i个标签的第t个词；[P]i,j为转移概率矩阵表示对于一对连续的时间步长从第i个状态转换到第j个状态的转变矩阵；神经网络可训练的参数记为θ；模型所有参数可表示为步骤6、识别法律关系对法律专家标注的法律文本数据，使用法律关系规则模板，从文本中学习法律文本的关系表达式，采用机器学习与模板规则结合的方法提取法律关系；步骤7、构造法律知识链基于原始法律文本，采用步骤5和步骤6识别到的法律实体和法律关系，使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京擎盾信息科技有限公司;杜向阳;梁雁圆，未经南京擎盾信息科技有限公司;杜向阳;梁雁圆许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711006520.3/，转载请声明来源钻瓜专利网。

上一篇：噻吩并吡啶化合物的混合二硫共轭物及其用法
下一篇：基于Hadoop平台的应用报表实现方法、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于法律数据的知识图谱构建方法及系统有效

专利文献下载