[发明专利]一种同名同音人才简历的识别匹配分析方法在审
申请号: | 201811216166.1 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109471924A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 郑锐韬;李勇波;涂旭平;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27;G06Q10/10 |
代理公司: | 广东莞信律师事务所 44332 | 代理人: | 陈熙 |
地址: | 523808 广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及大数据匹配分析技术领域,一种基于TrieTree算法的同名同音人才简历的识别匹配分析方法。本发明方法基于TrieTree算法,利用TrieTree算法优秀的插入和查询时间复杂度,获取同名或同读音的人才简历,通过TrieTree算法对简历内容的匹配,从而判断同名的是否是同一个人的信息,或是同读音但是不同名的两个人,是否是同一个人的信息,从而为大量的人才数据的简化及去重。本发明方法实现了快速人才简历信息的识别,提供了一种高效的人才简历数据处理方法。 | ||
搜索关键词: | 算法 匹配分析 读音 同音 时间复杂度 简历内容 简历信息 数据处理 大数据 去重 匹配 查询 | ||
【主权项】:
1.一种同名同音人才简历的识别匹配分析方法,其特征在于:所述的方法包括以下步骤:步骤1:获取所有人才简历的信息,并对姓名进行拼音的转换;步骤2:获取姓名相同或拼音相同的人才信息,相同姓名、相同拼音的分别形成人才简历对;步骤3:对形成人才简历对的人才信息,分别按标点符号进行分隔处理,从而形成可用于构建TrieTree简历词汇集;步骤4:输入简历对中一个简历词汇集,构建TrieTree,然后统计此简历的词频,并按出现的次数进行统计;输入另外一个简历词汇集,并形成另一个TrieTree,并统计简历的词频,同样按出现的次数进行统计;如果简历对有多个,按同样的方法进行统计词频;步骤5:分别对同名、同音的简历统计后的词频进行处理,去除常用的介词、副词、助词等,对于单字出现频率较高的词,分开另行统计处理;步骤6:经过处理后的按简历对通过TrieTree进行统计的词频,分两部分进行比较:一是词频次数大于1、且词频的数量大于20的;另一部分是词频数量为1的,此词频需长度大于2的词汇进行匹配;按词频的长度分别统计相同的语汇的数据,统计相同的占比;步骤7:分析同名、同音的简历间的词频的词汇相同比率,超过50的相同词汇,判定为同一个人的不同简历,可合并为同一个人的信息;对于低于10%的简历,可判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并由人工进行后续判定,从而实现同名、同音简历的匹配分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811216166.1/,转载请声明来源钻瓜专利网。