[发明专利]一种基于在线百科链接实体的知识抽取方法有效

专利信息
申请号: 201410052292.3 申请日: 2014-02-17
公开(公告)号: CN103902649B 公开(公告)日: 2017-01-18
发明(设计)人: 张可尊;肖仰华;汪卫 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司31200 代理人: 陆飞,王洁平
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于开放知识抽取技术领域,具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体,得到高质量的相关链接实体;然后利用Gmeans聚类方法对相关的链接实体做聚类,用基于LCA的类标签生成方法为每个类产生一个描述性的类标签,这样每个类对应的实体集合和类标签构成一组知识;最后,为了提高大数据量实体的聚类效率,使用基于最大生成树的类复用机制,从而极大节约聚类时间。本发明不同于传统的知识抽取方法,其抽取基于在线百科的链接实体,而不是正文内容,极大的避免了自然语言处理方法的计算代价高、错误率高等缺点,可以高效地处理大规模数据。
搜索关键词: 一种 基于 在线 百科 链接 实体 知识 抽取 方法
【主权项】:
一种基于在线百科链接实体的知识抽取方法,其特征在于,具体步骤如下:(1)不相关链接实体的识别与去除结合加权Jaccard系数WJC和点互信息PMI这两种简单的语义相关性度量方法,提出基于位置的证据融合的排序方法,得到证据融合的综合指标,设定噪音阈值,识别相关链接实体和不相关链接实体,将低于阈值的链接实体看作不相关链接实体并移除;(2)相关链接实体的聚类与类标签生成使用Gmeans聚类方法通过设定的置信度选择聚类截止条件对相关链接实体进行聚类的同时,使用Kmeans++方法选择初始聚类点,然后通过基于最小公共祖先LCA的类标签产生方法得到类的标签,以此产生的每个类的类标签组合构成一组知识,类标签描述知识的属性,类中的实体对应该属性下的属性值;(3)基于类复用的聚类使用基于最大生成树的类复用方法对步骤(2)中得到的不同类通过类的复用进行优化,实现高效聚类,再循环进行步骤(2)的操作;其中:步骤(1)中,基于位置的证据融合的排序方法,具体如下:首先针对实体e在PMI中的排序位置,实体e在WJC中的排序位置,计算用于表示实体e在两种排序中的位置差异性,公式如下:其中表示实体e的链接实体总数;然后计算实体e在两种指标的权重分配参数,其中为幅度调节参数;最后计算证据融合的综合指标,公式如下:其中=;步骤(2)中聚类时,使用在线百科页面实体的分类标签作为特征,特征c的权重idf(c)表示为下式:其中N表示全部实体数量,表示属于分类c的实体的数量;实体之间的距离用下式表示:其中、分别表示实体a或b的特征值组成的向量,向量的每一维是该特征的权值;、分别表示向量或的模;步骤(2)中,所述基于LCA的类标签产生方法如下:首先,对一个分类下的所有实体,构造一个以百科实体作为节点,以实体之间的链接作为边的有向分类图;然后,在构造的分类图上使用逐层扫描的方法找到满足分类覆盖率大于比率实体数量、且信息量最大的最小公共祖先LCA;在逐层扫描的同时,设定最大查找的层次L,如果查找层次大于L,就停止向更高层次查找,改为减小然后查找;其中:表示描述标签覆盖率的约束条件,所述逐层扫描的方法具体如下:先考虑实体的第一层分类,判断每个分类的覆盖率,如果存在某些分类覆盖率大于,则从中选择一个信息量最大的分类标签;如果没有找到满足要求的标签,则遍历第二层分类,判断每个分类的覆盖率,如果某些分类覆盖率大于,则从中选择最大信息量的标签作为类标签,否则迭代查询上层分类;步骤(3)中所述的基于最大生成树的类复用方法如下:首先将所有实体按照链接关系构造有向图G(V, E, w),V表示图上的节点,表示所有实体;E表示图上的边,表示实体之间的链接关系,w表示边的权重;对G中的两个实体u和v,表示在百科页面中u存在一个链接到v;这条链接在G上表示为一条边,、分别表示实体u、v的链接实体集合;则边的权重w表示为:再使用Prim方法得到最大生成树;即在最大生成树中父亲节点的聚类结果被孩子节点复用;使用广度优先搜索遍历方法进行类复用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410052292.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top