[发明专利]新闻分类方法及装置、网元、存储介质在审
申请号: | 201910363340.3 | 申请日: | 2019-04-30 |
公开(公告)号: | CN111858918A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 马真;唐冰 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 姚文娴;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 分类 方法 装置 存储 介质 | ||
本发明公开了一种新闻分类方法及装置、网元、存储介质,包括:主节点将总任务队列中的爬虫任务分配到N个从任务队列中,其中,N为大于1的正整数;第n个从节点从第n个所述从任务队列中获取所述爬虫任务,其中,所述第n个从节点对应于所述第n个从任务队列,其中,n为小于或等于N的正整数;所述第n个从节点根据所述爬虫任务获取新闻数据,并确定所述新闻数据的新闻类别。与利用集中式爬虫程序抓取新闻相比,由于集中式爬虫程序同一时间只能有一个爬虫节点抓取新闻,而本发明可有多个从爬虫节点同时抓取新闻,显然本发明可抓取更多的新闻数据,且效率更高。
技术领域
本发明涉及信息技术领域,尤其涉及一种新闻分类方法及装置、网元、存储介质。
背景技术
现阶段正处于一个信息爆炸的时代,互联网所产生的数据的数量产生了跨越式增加,如何有效地提取并利用这些信息成为一个巨大的挑战。通常需要通过爬虫程序获取新闻数据。集中式爬虫是以单爬虫节点,按照一定的规则,自动地抓取万维网信息的程序系统。而应用集中式爬虫获取新闻数据,获取到的新闻数量有限,且效率较低。
发明内容
本发明实施例提供一种新闻分类方法及装置。
本发明的技术方案是这样实现的:
一方面,提供一种新闻分类方法,包括:
主节点将总任务队列中的爬虫任务分配到N个从任务队列中,其中,N为大于1的正整数;
第n个从节点从第n个所述从任务队列中获取所述爬虫任务,其中,所述第n个从节点对应于所述第n个从任务队列,其中,n为小于或等于N的正整数;
所述第n个从节点根据所述爬虫任务获取新闻数据,并确定所述新闻数据的新闻类别。
进一步地,所述方法还包括:
所述主爬虫节点按照爬虫任务的优先级或爬虫任务进入所述总任务队列的时间,确定所述爬虫任务的获取顺序;
所述主节点将总任务队列中的爬虫任务分配到N个从任务队列中,包括:根据所述获取顺序,将所述总任务队列中的爬虫任务依次分配到N个所述从任务队列中。
进一步地,所述方法还包括:
所述主节点将待处理爬虫任务对应的链接地址进行去重操作;
将去重操作后的所述待处理爬虫任务加入到所述总任务队列,其中,所述待处理爬虫任务为预先设定的或由从节点提交的。
进一步地,所述确定所述新闻数据的新闻类别包括:
对所述新闻数据进行分词处理,获得分词后的新闻数据;
基于所述分词后的新闻数据及词频算法,提取所述新闻数据的关键词;
将所述关键词转换成词向量;
基于所述词向量和预设的支持向量机SVM模型,确定所述新闻数据的新闻类别。
进一步地,所述基于所述词向量和预设的支持向量机SVM模型,确定所述新闻数据的新闻类别,包括:
根据核函数参数,将所述词向量的特征数据从第一空间映射到第二空间,其中,所述第一空间的维度低于所述第二空间的维度;
确定所述词向量的特征数据在所述第二空间内的分布面;
根据所述分布面及对应的惩罚因子,确定所述新闻数据的新闻分类。
进一步地,训练所述预设的SVM模型包括:
根据c的取值范围、g的取值范围、c的移动间隔及g的移动间隔,进行c和g的取值移动,其中,c为SVM模型的惩罚因子,g为SVM模型的核函数参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910363340.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法及装置
- 下一篇:电网等值参数跟踪辨识方法