[发明专利]一种同名同音人才简历的识别匹配分析方法在审

专利信息
申请号: 201811216166.1 申请日: 2018-10-18
公开(公告)号: CN109471924A 公开(公告)日: 2019-03-15
发明(设计)人: 郑锐韬;李勇波;涂旭平;季统凯 申请(专利权)人: 国云科技股份有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F17/27;G06Q10/10
代理公司: 广东莞信律师事务所 44332 代理人: 陈熙
地址: 523808 广东省东莞市松山湖高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及大数据匹配分析技术领域,一种基于TrieTree算法的同名同音人才简历的识别匹配分析方法。本发明方法基于TrieTree算法,利用TrieTree算法优秀的插入和查询时间复杂度,获取同名或同读音的人才简历,通过TrieTree算法对简历内容的匹配,从而判断同名的是否是同一个人的信息,或是同读音但是不同名的两个人,是否是同一个人的信息,从而为大量的人才数据的简化及去重。本发明方法实现了快速人才简历信息的识别,提供了一种高效的人才简历数据处理方法。
搜索关键词: 算法 匹配分析 读音 同音 时间复杂度 简历内容 简历信息 数据处理 大数据 去重 匹配 查询
【主权项】:
1.一种同名同音人才简历的识别匹配分析方法,其特征在于:所述的方法包括以下步骤:步骤1:获取所有人才简历的信息,并对姓名进行拼音的转换;步骤2:获取姓名相同或拼音相同的人才信息,相同姓名、相同拼音的分别形成人才简历对;步骤3:对形成人才简历对的人才信息,分别按标点符号进行分隔处理,从而形成可用于构建TrieTree简历词汇集;步骤4:输入简历对中一个简历词汇集,构建TrieTree,然后统计此简历的词频,并按出现的次数进行统计;输入另外一个简历词汇集,并形成另一个TrieTree,并统计简历的词频,同样按出现的次数进行统计;如果简历对有多个,按同样的方法进行统计词频;步骤5:分别对同名、同音的简历统计后的词频进行处理,去除常用的介词、副词、助词等,对于单字出现频率较高的词,分开另行统计处理;步骤6:经过处理后的按简历对通过TrieTree进行统计的词频,分两部分进行比较:一是词频次数大于1、且词频的数量大于20的;另一部分是词频数量为1的,此词频需长度大于2的词汇进行匹配;按词频的长度分别统计相同的语汇的数据,统计相同的占比;步骤7:分析同名、同音的简历间的词频的词汇相同比率,超过50的相同词汇,判定为同一个人的不同简历,可合并为同一个人的信息;对于低于10%的简历,可判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并由人工进行后续判定,从而实现同名、同音简历的匹配分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811216166.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top