[发明专利]一个基于信息熵的数据流自适应集成分类方法在审
申请号: | 201611158475.9 | 申请日: | 2016-12-07 |
公开(公告)号: | CN108170695A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 孙艳歌;卲罕;刘宏兵;冯岩;王淑礼;姚建峰 | 申请(专利权)人: | 信阳师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 河南省信阳市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一个基于信息熵的数据流自适应集成分类方法,不仅能检测到概念漂移而且能识别重复概念,在该系统中,只有当检测到有新概念时才重建新的分类器并放入分类器池中,防止重复概念出现导致的重复训练的问题,减少模型更新频率,提高模型实时分类能力和分类效果,通过在人工合成数据集和真实数据集上与经典的数据流算法进行性能分析对比,实验表明该方法不仅能够应对多种类型概念漂移,提升了分类模型抗噪声能力,并在保证较高分类准确率前提下,消耗更少的时间代价,该方法可以应用于传感器网络异常检测、信用卡欺诈行为检测、天气预报和电价预测等众多实际问题中。 1 | ||
搜索关键词: | 漂移 数据流 集成分类 分类器 信息熵 自适应 重复 传感器网络 分类准确率 抗噪声能力 数据流算法 信用卡欺诈 分类模型 分类效果 模型更新 时间代价 实际问题 实时分类 行为检测 性能分析 异常检测 真实数据 数据集 新概念 检测 放入 电价 天气预报 消耗 重建 预测 应用 保证 | ||
步骤一:初始化集成分类器及缓存区;
步骤二:逐个将实例移入到滑动窗口中;
步骤三:利用所提出的基于两个窗口的检测模型描述如下:用W1={xt+1,xt+2,...,xt+n}和W2={xt+n+1,...,xt+2n}分别表示t时刻两个连续的大小相等的窗口,W1表示参考窗口,W2表示当前窗口。用JSD(W1||W2)度量两个窗口之间分布的距离,当此值小于等于10‑5(非常接近于零)时,表示两个窗口的数据分布相同,即发现重复概念;当大于10‑5小于阈值τ时,认为两个窗口之间的分布无显著性差异,当大于阈值则表明此时有概念漂移发生。阈值采用bootstrap的方法计算得到。由于窗口每次向前滑动一个实例,因此能及时检测到突变式概念漂移;
步骤四:当检测到有概念漂移发生时,就与分类器池中的建立分类器的数据的分布进行比较,若是新概念则新建一个分类器加入到分类器池中,并把相应的数据放在缓存区;若是重复概念则重用已有分类器。分类器按照重复使用的频率从高到低排序,当分类器池中存放的分类器数达到最大值时,则替换最不经常使用的分类器;
步骤五:根据每个基分类器在最新窗口中实例的分类错误率,采用加权投票的方式对每个实例进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信阳师范学院,未经信阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611158475.9/,转载请声明来源钻瓜专利网。