[发明专利]Hadoop多管道数据处理分析方法在审
申请号: | 201710347164.5 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193926A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 林森;唐宁;马娜 | 申请(专利权)人: | 北京快友世纪科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种Hadoop多管道数据处理分析方法,所述方法包括以下步骤第一、利用外部设备输入大数据文件;第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;第四、发送消息;第五、调用中间数据,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数;第七、输出结果。 | ||
搜索关键词: | hadoop 管道 数据处理 分析 方法 | ||
【主权项】:
一种Hadoop多管道数据处理分析方法,其特征在于,该方法利用服务器中的MapReduce编程模型来处理海量数据,所述的服务器包括外部设备、处理单元、总线、网络适配器、I/O接口和系统存储器,处理单元、网络适配器、I/O接口和系统存储器均通过总线连接并通信,外部设备与I/O接口连接,所述的MapReduce编程模型设置在服务器的系统存储器中;该方法包括以下步骤:第一、利用外部设备输入大数据文件,MapReduce编程模型将输入的大数据文件分成若干独立的数据,并在不同的机器上进行程序数据的备份;第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;第四、发送消息,分区函数将所述的中间键/值对分成若干区,将各个区在磁盘中的位置信息发送给主程序,然后转发给Reduce子事务节点;第五、调用中间数据,Reduce子事务节点获取由主程序转发的子事务后,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数,执行结果将被输出到最终的输出文件中;第七、输出结果,当所有的Reduce子事务完成后,主程序节点将所有数据返回给用户程序,用户程序合并数据并输出最终数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710347164.5/,转载请声明来源钻瓜专利网。