[发明专利]一种标准文献检索的排序算法有效

专利信息
申请号: 201710578538.4 申请日: 2017-07-17
公开(公告)号: CN110019637B 公开(公告)日: 2022-09-23
发明(设计)人: 金志刚;章学周;陈银龙;严菁;伍薇;王玮健;赵华;李天侠;谢莉 申请(专利权)人: 江苏省质量和标准化研究院
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 常州佰业腾飞专利代理事务所(普通合伙) 32231 代理人: 康潇
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种标准文献检索的排序算法,涉及关键词的检索技术领域,通过设置查询配置来影响boost打分,对edismax实现的方法和map函数进行封装,通过对查询标题名称、题录、正文等多个字段进行定量规整化处理,为每个字段的文本相关度设置打分权重,且字段根据精确和模糊匹配赋予不同的权重层级,经过两次数据规整化处理后,通过封装后的map函数进行倒序排序反馈结果,提高了标准文献检索过程中的准确性。
搜索关键词: 一种 标准 文献 检索 排序 算法
【主权项】:
1.一种标准文献检索的排序算法,其特征在于:包括如下步骤:步骤1:建立索引系统,所述索引系统包括数据库服务器、检索服务器和客户端服务器,数据库服务器和客户端服务器通过互联网连接检索服务器;步骤2:在数据库服务器中为标准文档建立标准全文关键词库,检索服务器扫描标准文档中的每一个词,记录下每个词在标准文档中出现的频率和相应的位置,选取其中出现频率最高的50个词作为该标准的全文关键词,并且设定这50个词均为Token,检索服务器为这50个Token建立索引;步骤3:用户通过客户端服务器输入检索字段,客户端服务器将检索字段发送给检索服务器,检索服务器采用基于词典的中文分词算法,通过逆向最大匹配的方法切分出检索字段中的所有词,其步骤如下:步骤A:从右向左取待切分字段的Lmax个字符作为匹配字段;Lmax为所使用词典中最长词条的个数;步骤B:对查找的字段与词典中的词进行匹配:如果匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最前端一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配;步骤C:重复执行步骤A到步骤B,直到切分出所有词为止;步骤4:对切分出的分词在标准全文关键词库中进行检索,并根据以下步骤进行索引结果的输出:步骤D:设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项;步骤E:针对每个字段设置不同的boost权重打分值,其设置的字段必须为在pf中配置的项;步骤F:对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理,每个字段的文本相关度打分权重分别为10n,10n‑1,10n‑2,……1,其中n根据数据量的大小进行赋值,且字段根据精确和模糊匹配赋予不同的权重层级;步骤G:计算查询出每一条结果的权重,即使用map函数计算各层级分数并取其和值;步骤H:根据遵循类型优先原则进行第二次定量规整化处理,即:假如标题和题录均精确命中,以标题精确为准,将大于10n的值都规整为一个能代表标题精确的数;步骤J:在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号,即为该结果的boost得分;步骤K:根据boost值大小输出查询结果,同时根据标准领域专家总结,依次显示国标、行标、地标和外标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省质量和标准化研究院,未经江苏省质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710578538.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top