[发明专利]一种同名同音人才简历的识别匹配分析方法在审

申请号：	201811216166.1	申请日：	2018-10-18
公开（公告）号：	CN109471924A	公开（公告）日：	2019-03-15
发明（设计）人：	郑锐韬;李勇波;涂旭平;季统凯	申请（专利权）人：	国云科技股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F17/27;G06Q10/10
代理公司：	广东莞信律师事务所 44332	代理人：	陈熙
地址：	523808 广东省东莞市松山湖高***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及大数据匹配分析技术领域，一种基于TrieTree算法的同名同音人才简历的识别匹配分析方法。本发明方法基于TrieTree算法，利用TrieTree算法优秀的插入和查询时间复杂度，获取同名或同读音的人才简历，通过TrieTree算法对简历内容的匹配，从而判断同名的是否是同一个人的信息，或是同读音但是不同名的两个人，是否是同一个人的信息，从而为大量的人才数据的简化及去重。本发明方法实现了快速人才简历信息的识别，提供了一种高效的人才简历数据处理方法。
搜索关键词：	算法匹配分析读音同音时间复杂度简历内容简历信息数据处理大数据去重匹配查询
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种同名同音人才简历的识别匹配分析方法，其特征在于：所述的方法包括以下步骤：步骤1：获取所有人才简历的信息，并对姓名进行拼音的转换；步骤2：获取姓名相同或拼音相同的人才信息，相同姓名、相同拼音的分别形成人才简历对；步骤3：对形成人才简历对的人才信息，分别按标点符号进行分隔处理，从而形成可用于构建TrieTree简历词汇集；步骤4：输入简历对中一个简历词汇集，构建TrieTree，然后统计此简历的词频，并按出现的次数进行统计；输入另外一个简历词汇集，并形成另一个TrieTree，并统计简历的词频，同样按出现的次数进行统计；如果简历对有多个，按同样的方法进行统计词频；步骤5：分别对同名、同音的简历统计后的词频进行处理，去除常用的介词、副词、助词等，对于单字出现频率较高的词，分开另行统计处理；步骤6：经过处理后的按简历对通过TrieTree进行统计的词频，分两部分进行比较：一是词频次数大于1、且词频的数量大于20的；另一部分是词频数量为1的，此词频需长度大于2的词汇进行匹配；按词频的长度分别统计相同的语汇的数据，统计相同的占比；步骤7：分析同名、同音的简历间的词频的词汇相同比率，超过50的相同词汇，判定为同一个人的不同简历，可合并为同一个人的信息；对于低于10％的简历，可判断为不是同一个人；对于相同率在10％～50％的简历，按相同率形成匹配度，进行标识，并由人工进行后续判定，从而实现同名、同音简历的匹配分析。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司，未经国云科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811216166.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种同名同音人才简历的识别匹配分析方法在审

专利文献下载