[发明专利]一种实现汉语同音字检索的方法有效
申请号: | 201210008298.1 | 申请日: | 2012-01-12 |
公开(公告)号: | CN102609455A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 王杰中;周海滨;邹娟;崔玉祥 | 申请(专利权)人: | 北京中科大洋科技发展股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周国城 |
地址: | 100094 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 汉语 同音字 检索 方法 | ||
技术领域
本发明涉及汉字检索技术领域,特别是一种实现汉语同音字检索的方法。
背景技术
同音字是汉语言的一种特性,汉字中存在大量的同音字。用户在检索时,只知道一个字的读音,不知道其具体写法的情况是很常见的,因此,同音字检索作为一种智能检索方式应运而生。
传统的实现汉语同音字检索的方法有两种:一种是利用汉语的词库,另一种是利用汉字的拼音。
汉语的词汇量(指由汉字组成的词组)是很大的,如果使用词库方式进行同音字检索,需要建立庞大的同音词库,且检索的时候,需要将用户输入的关键词根据同音词库替换成若干同音词,使一个输入实际上变成多个输入,降低了检索的效率,同时增大了维护和扩展的成本。
另一种方式,是将每个汉字与其拼音关联起来,当用户输入关键词时,先将每个汉字转换成拼音,再反向根据拼音查询具有相同读音的汉字,进行排列组合,生成若干同音关键词组,再进行检索。这种方式经排列组合之后,会生成非常多的同音关键词组,尤其是当用户输入的关键词包含汉字个数越多,这种现象越明显,会使效率大大下降,如果对这些同音关键词组进行筛选过滤,只保留有意义的词组,无疑又涉及语法和词法分析等方面的知识,门槛较高,成本较大。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种实现汉语同音字检索的方法,以提高汉字检索的效率,降低成本。
(二)技术方案
为达到上述目的,本发明提供的了一种实现汉语同音字检索的方法,该方法包括:
步骤1:建立常用汉字与其同音代表字之间的映射关系,并按照该映射关系对检索数据库中的原始全文内容进行映射,得到由多条映射记录构成的检索数据库;
步骤2:按照该映射关系对用户输入的原始检索关键词进行映射,得到对应于该原始检索关键词的同音代表字串;
步骤3:在由多条映射记录构成的检索数据库中对该同音代表字串进行检索,得到检索结果。
上述方案中,步骤1中所述建立常用汉字与其同音代表字之间的映射关系包括:以国家质量技术监督局2001年宣布的计算机汉字信息交换标准GB18030为依据,建立常用汉字与其同音代表字之间的映射关系,其中GB18030共包括70244个汉字,从具有相同发音的多个汉字中选取同音代表字。
上述方案中,步骤1中所述建立常用汉字与其同音代表字之间的映射关系包括:以国家语委汉字处制定的包括7000个汉字的现代汉语通用字表或以教育部目前正向社会征求意见的包括8300个汉字的通用规范汉字表为依据,建立常用汉字与其同音代表字之间的映射关系,从具有相同发音的多个汉字中选取同音代表字。
上述方案中,所述在从具有相同发音的多个汉字中选取同音代表字,是选用具有相同发音的任一个字做为其同音代表字,优选地是选用具有相同发音的第一个字做为其同音代表字。至于相同发音的规则,可以根据用户不同的需求灵活决定,可以精确到相同拼音的不同声调,也可以不区分相同拼音的不同声调,或者可以不区分非卷舌舌音和卷舌音等。
上述方案中,所述原始全文内容和同音代表字信息保存在同一个数据库表中,步骤1中所述映射记录包括以下字段:记录标识、原始全文内容和同音代表字信息,其中原始全文内容与同音代表字信息按照所述映射关系一一对应。所述步骤3包括:以该同音代表字串为检索关键词,在检索数据库映射记录的同音代表字信息字段中进行检索,检索到与该同音代表字串匹配的同音代表字信息,然后根据该匹配的同音代表字信息确定检索到的映射记录,得到该映射记录中的原始全文内容为检索结果。
上述方案中,所述原始全文内容和同音代表字信息分别保存在不同的数据库表中,步骤1中所述映射记录包括以下字段:记录标识、原始资源标识ID和同音代表字信息,其中原始资源标识ID与同音代表字信息按照所述映射关系一一对应,且在原始全文内容数据库表中原始资源标识ID对应于原始全文内容。所述步骤3包括:以该同音代表字串为检索关键词,在检索数据库映射记录的同音代表字信息字段中进行检索,检索到与该同音代表字串匹配的同音代表字信息,然后根据该匹配的同音代表字信息确定检索到的映射记录,得到该映射记录中的原始资源标识ID,然后根据该原始资源标识ID到原始全文内容数据库表中找到对应的记录,得到原始全文内容为检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科大洋科技发展股份有限公司,未经北京中科大洋科技发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210008298.1/2.html,转载请声明来源钻瓜专利网。