[发明专利]一种基于车载导航仪全文检索的多语言分词方法及装置在审
申请号: | 201711209343.9 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107992475A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 罗跃军;姜子奇;周文昉 | 申请(专利权)人: | 武汉中海庭数据技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于车载导航仪全文检索的多语言分词方法及装置,方法包括根据标点符号对输入文本进行切分,得到一个或多个子文本;判断是否存在仅包含英文字母或数字的子文本,如果是则将所述仅包含英文字母或数字的子文本作为第一子文本并做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本;根据语言编码识别机制,将第二子文本切分,得到仅包含单一语种的多个字符串;利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。 | ||
搜索关键词: | 一种 基于 车载 导航 全文 检索 语言 分词 方法 装置 | ||
【主权项】:
一种基于车载导航仪全文检索的多语言分词方法,其特征在于,包括以下步骤:步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;步骤4,利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉中海庭数据技术有限公司,未经武汉中海庭数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711209343.9/,转载请声明来源钻瓜专利网。