[发明专利]基于MapReduce算法的web数据采集方法、系统和存储介质在审
申请号: | 202011107082.1 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112231320A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 董志勇 | 申请(专利权)人: | 南京信息职业技术学院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/951;G06F16/958 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于MapReduce算法的web数据采集方法、系统和存储介质,属于互联网数据处理技术领域,该web数据采集方法包括接收爬虫采集节点传送的网页数据经协议封装而成的数据包;解析所述数据包,对解析后的数据包进行Map操作构建哈希表;向文件导出节点发送所述哈希表,以便于文件导出节点对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。本发明能够借助分布式架构的微服务技术,对数据处理由不同的节点承担,并通过MapReduce算法的Map操作和Reduce操作对采集的数据进行处理,其数据结构灵活性强,数据采集效率高,采集方法部署简单和扩展性强。 | ||
搜索关键词: | 基于 mapreduce 算法 web 数据 采集 方法 系统 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息职业技术学院,未经南京信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011107082.1/,转载请声明来源钻瓜专利网。