[发明专利]一种基于weka接口的分布式机器学习方法有效

申请号：	201610004032.8	申请日：	2016-01-04
公开（公告）号：	CN105677615B	公开（公告）日：	2018-11-23
发明（设计）人：	崔宝江;石佩林;张晓玮;田进山	申请（专利权）人：	北京邮电大学;北京奇虎科技有限公司
主分类号：	G06F15/18	分类号：	G06F15/18
代理公司：	北京永创新实专利事务所 11121	代理人：	姜荣丽
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于weka接口的分布式机器学习方法及其实现装置，属于互联网技术领域。所述方法包括数据预处理、特征提取和weka格式文件的本地训练，最后云计算平台进行线上海量数据分布式测试，生成最终检测结果。所述的实现装置包括解析模块、训练模块和测试模块。所述的解析模块包括数据预处理子模块和特征提取子模块。本发明采用机器学习分布式处理，缩短了整个机器学习过程的时间；扩展了weka的应用范围，实现了从单机模式到分布式模式的转变；本发明将机器学习过程和扩展到分布式模式的weka巧妙结合，达到良好的机器学习的效果。
搜索关键词：	一种基于 weka 接口分布式机器学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于weka接口的分布式机器学习方法，其特征在于：包括如下步骤，第一步，数据预处理：web日志文件被切分成n个小文件，提取出统一资源标识符，对统一资源标识符进行包括静态文件过滤、大写转小写，将连续的斜线”/”转换为一个斜线以及解码操作；所述的Web日志文件是在线上服务器中产生并直接存储到云计算平台，所述数据预处理基于mapreduce框架并行处理，对于每一个小文件Mappers阶段会启动一个Map()函数来处理；第二步，特征提取；对步骤一中预处理后的uri采取分割取字段、根据uri的组成类型、是否含特殊字符、长度、关键字出现个数和一定规则的权值计算得出所要提取的21个特征，以向量的形式输出特征向量；并对特征向量采用log函数进行量化和合并处理，生成结果文件；结果文件的文件格式是weka所要求的arff格式；第三步，weka格式文件的本地训练；本地训练时调用weka接口，运用weka接口里面已封装好的随机森林算法，生成模型文件RandomForest.model，上传到云计算平台；第四步，云计算平台进行线上海量数据分布式测试，将Web日志文件与模型文件进行匹配，生成最终检测结果；所述的云计算平台是基于hadoop、spark或storm大数据处理的框架组成的集群系统。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京奇虎科技有限公司，未经北京邮电大学;北京奇虎科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610004032.8/，转载请声明来源钻瓜专利网。

上一篇：多层级汇总统计报表协同填报处理方法
下一篇：一种控制方法及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于weka接口的分布式机器学习方法有效

专利文献下载