[发明专利]中文交互式问答文本中错别字的识别和纠错的方法及装置在审
申请号: | 201710947261.8 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107729316A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 傅强 | 申请(专利权)人: | 福建富士通信息软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙)35212 | 代理人: | 宋连梅 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置,生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;所述识别纠错过程包括局部错误判断步骤,全局错误判断步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,进行纠错改写步骤,最后输出文本。本发明的方法及装置,通过多角度多层次的识别和纠错,最终输出正确文本,提升实时文本交互的品质。 | ||
搜索关键词: | 中文 交互式 问答 文本 错别字 识别 纠错 方法 装置 | ||
【主权项】:
中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:包括准备过程和识别纠错过程;所述准备过程包括生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;所述识别纠错过程包括下述步骤:局部错误判断步骤,读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;全局错误判断步骤,读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;纠错改写步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,则进行(1)或(2):(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;输出文本步骤,如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本;其中,所述局部错误判断步骤和全局错误判断步骤不分先后。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建富士通信息软件有限公司,未经福建富士通信息软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710947261.8/,转载请声明来源钻瓜专利网。