[发明专利]一种中文命名实体识别歧义消解方法有效
申请号: | 201110265457.1 | 申请日: | 2011-09-08 |
公开(公告)号: | CN102314507A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 王理;潘守慧;邓卫国;王思远;于珊;施慧斌 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种中文命名实体识别歧义消解方法,属于命名实体抽取领域,该方法包括以下步骤:(1)首先本发明采用特征归纳法来减少特征个数,即通过训练学习让其分类器自动去选择有意义的特征。(2)在选取特征后,通过Viterbi算法从CRF模型学习中选择N-BEST最佳标记序列,也就是选出观测序列的N个概率最大的标记序列。(3)考虑中文命名实体出现的频率及其词长,该方法采用改进的贪婪算法进行歧义消解,从而得到实体标记序列。 | ||
搜索关键词: | 一种 中文 命名 实体 识别 歧义 消解 方法 | ||
【主权项】:
一种中文命名实体识别歧义消解方法,其特征是该方法包括以下步骤:(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数;(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N‑BEST最佳标记序列,也就是选出观测序列x的N个概率最大的标记序列;(3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤4;如果一致,则不用进行歧义消解,直接得到最终的标记序列;(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列xs,采用基于改进的贪婪算法进行歧义消解,得到最终的标记序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110265457.1/,转载请声明来源钻瓜专利网。