[发明专利]一种标准文献检索的排序算法有效

申请号：	201710578538.4	申请日：	2017-07-17
公开（公告）号：	CN110019637B	公开（公告）日：	2022-09-23
发明（设计）人：	金志刚;章学周;陈银龙;严菁;伍薇;王玮健;赵华;李天侠;谢莉	申请（专利权）人：	江苏省质量和标准化研究院
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33
代理公司：	常州佰业腾飞专利代理事务所(普通合伙) 32231	代理人：	康潇
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种标准文献检索的排序算法，涉及关键词的检索技术领域，通过设置查询配置来影响boost打分，对edismax实现的方法和map函数进行封装，通过对查询标题名称、题录、正文等多个字段进行定量规整化处理，为每个字段的文本相关度设置打分权重，且字段根据精确和模糊匹配赋予不同的权重层级，经过两次数据规整化处理后，通过封装后的map函数进行倒序排序反馈结果，提高了标准文献检索过程中的准确性。
搜索关键词：	一种标准文献检索排序算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种标准文献检索的排序算法，其特征在于：包括如下步骤：步骤1：建立索引系统，所述索引系统包括数据库服务器、检索服务器和客户端服务器，数据库服务器和客户端服务器通过互联网连接检索服务器；步骤2：在数据库服务器中为标准文档建立标准全文关键词库，检索服务器扫描标准文档中的每一个词，记录下每个词在标准文档中出现的频率和相应的位置，选取其中出现频率最高的50个词作为该标准的全文关键词，并且设定这50个词均为Token，检索服务器为这50个Token建立索引；步骤3：用户通过客户端服务器输入检索字段，客户端服务器将检索字段发送给检索服务器，检索服务器采用基于词典的中文分词算法，通过逆向最大匹配的方法切分出检索字段中的所有词，其步骤如下：步骤A：从右向左取待切分字段的Lmax个字符作为匹配字段；Lmax为所使用词典中最长词条的个数；步骤B：对查找的字段与词典中的词进行匹配：如果匹配成功，则将这个匹配字段作为一个词切分出来，若匹配不成功，则将这个匹配字段的最前端一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配；步骤C：重复执行步骤A到步骤B，直到切分出所有词为止；步骤4：对切分出的分词在标准全文关键词库中进行检索，并根据以下步骤进行索引结果的输出：步骤D：设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项；步骤E：针对每个字段设置不同的boost权重打分值，其设置的字段必须为在pf中配置的项；步骤F：对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理，每个字段的文本相关度打分权重分别为10ⁿ,10^n‑1,10^n‑2，……1，其中n根据数据量的大小进行赋值，且字段根据精确和模糊匹配赋予不同的权重层级；步骤G：计算查询出每一条结果的权重，即使用map函数计算各层级分数并取其和值；步骤H：根据遵循类型优先原则进行第二次定量规整化处理，即：假如标题和题录均精确命中，以标题精确为准，将大于10ⁿ的值都规整为一个能代表标题精确的数；步骤J：在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号，即为该结果的boost得分；步骤K：根据boost值大小输出查询结果，同时根据标准领域专家总结，依次显示国标、行标、地标和外标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏省质量和标准化研究院，未经江苏省质量和标准化研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710578538.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种标准文献检索的排序算法有效

专利文献下载