[发明专利]一种求解中文分词中新词的遗传模拟退火方法有效
申请号: | 201610039870.9 | 申请日: | 2016-01-21 |
公开(公告)号: | CN105740227B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 康雁 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/12 |
代理公司: | 西安知诚思迈知识产权代理事务所(普通合伙) 61237 | 代理人: | 麦春明 |
地址: | 650091 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种求解中文分词中新词的遗传模拟退火方法,首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,并针对舆情监测系统进行相关设计应用。本发明解决了中文信息处理领域中自动分词问题;针对随着社会和互联网发展不断出现的新词,组合遗传算法和模拟退火算法的求解策略,提高了分词的准确率,有效地解决了自动分词结果中出现的散串及分词错误问题,为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。 | ||
搜索关键词: | 一种 求解 中文 分词 新词 遗传 模拟 退火 方法 | ||
【主权项】:
1.一种求解中文分词中新词的遗传模拟退火方法,其特征在于,所述求解中文分词中新词的遗传模拟退火方法首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策略、动态交叉和变异因子、多次升温及记忆函数控制策略,并针对舆情监测系统进行相关设计应用;所述遗传模拟退火的算法具体包括:步骤一,输入系统原始数据并且进行编码;步骤二,随机产生一定数量的个体生成满足约束条件的初始种群;步骤三,初始化参数,设置控制参数和过程参数值,控制参数包括初始温度T0、终止温度Te、降温系数α和总升温次数L’、种群遗传迭代次数N’、遗传迭代中交叉率C、遗传迭代中变异率B、交叉率系数β、变异率系数γ,交叉率和变异率根据当前执行的时期进行动态变化;初始化过程参数,即令升温次数累计参数l=0,循环操作次数累计参数k=0;步骤四,设定循环退火温度当前值T=T0;步骤五,是否满足终止条件,是则跳转步骤十九,否则跳转步骤六;步骤六,开始while循环函数,判定函数T>Te是则继续,否则跳转步骤十七;步骤七,判定l是否大于等于L’,是则跳转步骤十九,否则跳转步骤八;步骤八,计算每一个个体的适应度;步骤九,执行选择运算产生新种群,随机从种群中选取个体进行操作;步骤十,对新种群执行交叉运算,利用交叉率来随机控制种群个体之间的交叉基因,交叉概率的变化为C=C×β;步骤十一,对新种群执行变异运算,根据变异率控制基因的变异,变异率的值设置的比较小,将算法分为搜索前期、中期和后期,其中变异率的变化为B=B×γ;步骤十二,计算新种群中每个个体的适应度;步骤十三,根据Metropolis准则进行取舍父代和子代的存在性,并组成较优新种群,完成该次循环;步骤十四,对得到的新种群中的个体进行更新判断,即如果经过多次降温操作该个体没有任何变化,则执行终止函数,将该个体添加到记忆最优解空间中,否则执行步骤十五;步骤十五,令k=k+1;并降低退火温度当前值T=T×α;步骤十六,重新进入while循环判断T值是否达到终止温度Te,即判断T=Te是否成立,是则转步骤十七,否则转步骤五;步骤十七,修正升温次数,l=l+1,进入到多次升温操作剔除局部最优解,使算法向全局最优解靠近;步骤十八,判断升温次数是否达到总升温次数L’,若是,则转步骤十九,否则转步骤四;步骤十九,输出初级优化结果;步骤二十,将优化结果和记忆最优解空间中的解利用Metropolis准则进行比较,得到全局最优解;步骤二十一,算法结束,得到最优解;所述编码采用二进制编码;首先定义字串:一串汉字组成的20位的字符串,一个字串则为种群中的一个个体;字位:每个汉字所占的位置;字串的组成方式:根据标点符号、英文字符、数字字符或别的特殊字符进行分割,生成初始字符串;对初始字符串进行处理,利用现在常用的分词系统对于初始字段进行分词,如果分词所得词语存在于词库中则将该词语包含的字位都标记为“1”,不存在的“字位”则标记为“0”,生成以“1”和“0”组成的二进制字符串;针对二进制字符串进行处理,利用字串长度20作为判断条件,如果长度不足20的则利用随机数“1”和“0”直接补齐后几位;如果长度超过了20为则按照20位的长度截取,但是在截取过程中做判断,截取的位置前后是否都为“1”,如果为“1”则截取位置向前移动,直到发现截取位置之前的不为“1”再截取,然后利用随机数“1”和“0”补齐剩余位数,否则直接截取产生字串;所述种群选取的种群规模为40。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610039870.9/,转载请声明来源钻瓜专利网。