[发明专利]Hadoop多管道数据处理分析方法在审

专利信息
申请号: 201710347164.5 申请日: 2017-05-17
公开(公告)号: CN107193926A 公开(公告)日: 2017-09-22
发明(设计)人: 林森;唐宁;马娜 申请(专利权)人: 北京快友世纪科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/50
代理公司: 暂无信息 代理人: 暂无信息
地址: 100020 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种Hadoop多管道数据处理分析方法,所述方法包括以下步骤第一、利用外部设备输入大数据文件;第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;第四、发送消息;第五、调用中间数据,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数;第七、输出结果。
搜索关键词: hadoop 管道 数据处理 分析 方法
【主权项】:
一种Hadoop多管道数据处理分析方法,其特征在于,该方法利用服务器中的MapReduce编程模型来处理海量数据,所述的服务器包括外部设备、处理单元、总线、网络适配器、I/O接口和系统存储器,处理单元、网络适配器、I/O接口和系统存储器均通过总线连接并通信,外部设备与I/O接口连接,所述的MapReduce编程模型设置在服务器的系统存储器中;该方法包括以下步骤:第一、利用外部设备输入大数据文件,MapReduce编程模型将输入的大数据文件分成若干独立的数据,并在不同的机器上进行程序数据的备份;第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;第四、发送消息,分区函数将所述的中间键/值对分成若干区,将各个区在磁盘中的位置信息发送给主程序,然后转发给Reduce子事务节点;第五、调用中间数据,Reduce子事务节点获取由主程序转发的子事务后,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数,执行结果将被输出到最终的输出文件中;第七、输出结果,当所有的Reduce子事务完成后,主程序节点将所有数据返回给用户程序,用户程序合并数据并输出最终数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710347164.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top