[发明专利]一种标准文献检索的排序算法有效
申请号: | 201710578538.4 | 申请日: | 2017-07-17 |
公开(公告)号: | CN110019637B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 金志刚;章学周;陈银龙;严菁;伍薇;王玮健;赵华;李天侠;谢莉 | 申请(专利权)人: | 江苏省质量和标准化研究院 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 康潇 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种标准文献检索的排序算法,涉及关键词的检索技术领域,通过设置查询配置来影响boost打分,对edismax实现的方法和map函数进行封装,通过对查询标题名称、题录、正文等多个字段进行定量规整化处理,为每个字段的文本相关度设置打分权重,且字段根据精确和模糊匹配赋予不同的权重层级,经过两次数据规整化处理后,通过封装后的map函数进行倒序排序反馈结果,提高了标准文献检索过程中的准确性。 | ||
搜索关键词: | 一种 标准 文献 检索 排序 算法 | ||
【主权项】:
1.一种标准文献检索的排序算法,其特征在于:包括如下步骤:步骤1:建立索引系统,所述索引系统包括数据库服务器、检索服务器和客户端服务器,数据库服务器和客户端服务器通过互联网连接检索服务器;步骤2:在数据库服务器中为标准文档建立标准全文关键词库,检索服务器扫描标准文档中的每一个词,记录下每个词在标准文档中出现的频率和相应的位置,选取其中出现频率最高的50个词作为该标准的全文关键词,并且设定这50个词均为Token,检索服务器为这50个Token建立索引;步骤3:用户通过客户端服务器输入检索字段,客户端服务器将检索字段发送给检索服务器,检索服务器采用基于词典的中文分词算法,通过逆向最大匹配的方法切分出检索字段中的所有词,其步骤如下:步骤A:从右向左取待切分字段的Lmax个字符作为匹配字段;Lmax为所使用词典中最长词条的个数;步骤B:对查找的字段与词典中的词进行匹配:如果匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最前端一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配;步骤C:重复执行步骤A到步骤B,直到切分出所有词为止;步骤4:对切分出的分词在标准全文关键词库中进行检索,并根据以下步骤进行索引结果的输出:步骤D:设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项;步骤E:针对每个字段设置不同的boost权重打分值,其设置的字段必须为在pf中配置的项;步骤F:对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理,每个字段的文本相关度打分权重分别为10n,10n‑1,10n‑2,……1,其中n根据数据量的大小进行赋值,且字段根据精确和模糊匹配赋予不同的权重层级;步骤G:计算查询出每一条结果的权重,即使用map函数计算各层级分数并取其和值;步骤H:根据遵循类型优先原则进行第二次定量规整化处理,即:假如标题和题录均精确命中,以标题精确为准,将大于10n的值都规整为一个能代表标题精确的数;步骤J:在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号,即为该结果的boost得分;步骤K:根据boost值大小输出查询结果,同时根据标准领域专家总结,依次显示国标、行标、地标和外标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省质量和标准化研究院,未经江苏省质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710578538.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种GIS瓦片地图的存储方式
- 下一篇:一种基于冷热词分离的索引方法