[发明专利]一种网页信息获取系统及方法有效
申请号: | 201210375474.5 | 申请日: | 2012-09-29 |
公开(公告)号: | CN102902785A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 刘云剑;姚健;潘柏宇;卢述奇 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种网页信息获取系统及方法,该系统包括任务投递器,任务队列,任务执行器及存储器。前述每个模块都是以服务的方式独立运行,这一特性使整个系统扩展性非常好。该方法包括将一个URL封装成一个需要下载的任务;将任务投递到任务队列;任务队列接收任务,从任务队列获取任务;根据任务类型获取对应的任务解析器;使用任务解析器解析下载的网页源代码;以及保存数据和将URL网页中解析到的子URL封装为新任务再投递到任务队列。该系统和方法可以应用于任何垂直领域的网页信息下载,并能容易且只需关注自定义添加不同网站解析器,保证了全网网页信息获取的准确性,并且容易控制重复下载和更新频率通用的系统。 | ||
搜索关键词: | 一种 网页 信息 获取 系统 方法 | ||
【主权项】:
一种网页信息获取系统,其特征在于该系统包括以下的模块:任务投递器,用于将种子所在的统一资源定位符(即:Uniform/Universal Resource Locator,以下简称:URL)或任务解析器解析出的子URL并封装成下载任务,将任务投递到任务队列,并记录投递成功与否的日志;任务队列,用于存取任务,接收任务投递器投递的任务,还用于等待任务执行器获取任务,当任务执行器发送请求获取任务时,任务队列将任务返回给任务执行器;包括任务解析器的任务执行器,用于执行任务队列中的任务,其从任务队列获取下载任务;通过任务类型获取到对应的任务解析器,下载网页源代码,调用任务解析器对网页源代码进行解析,并返回解析到的数据,该数据包括一个URL集合和一个视频信息集合;以及存储设备,用于保存解析器解析到的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210375474.5/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置