[发明专利]一种热点事件信息处理方法和装置有效
申请号: | 201611117512.1 | 申请日: | 2016-12-07 |
公开(公告)号: | CN108170692B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 林家欣;汤煌;张小鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种热点事件信息处理方法,所述方法包括:对多个文本信息进行文本分词处理得到各个文本信息中包含的分词;根据所述处理得到的各个分词的统计数据,从各文本信息包含的分词中提取至少一个关键词;根据各个关键词对应的文本信息的网络流量数据,获取各个关键词的流量热度值;将流量热度值高于第一预设阈值的关键词确定为热点词语;根据各个热点词语之间的相关度,将确定得到的热点词语进行热词聚类,得到至少一个事件热词聚类。本发明实施例还公开了一种热点事件信息处理装置。采用本发明,可实现及时并准确的掌握网络中的热点事件。 | ||
搜索关键词: | 一种 热点 事件 信息处理 方法 装置 | ||
对多个文本信息进行文本分词处理得到各个文本信息中包含的分词;
根据所述处理得到的各个分词的统计数据,从各文本信息包含的分词中提取至少一个关键词;
根据各个关键词对应的文本信息的网络流量数据,获取各个关键词的流量热度值;
将流量热度值高于第一预设阈值的关键词确定为热点词语;
根据各个热点词语之间的相关度,将确定得到的热点词语进行热词聚类,得到至少一个事件热词聚类。
2.如权利要求1所述的热点事件信息处理方法,其特征在于,所述根据所述处理得到的各个分词的统计数据,从各文本信息包含的分词中提取至少一个关键词包括:通过词频‑逆文档频率算法或文档排名算法,从各文本信息包含的分词中提取至少一个关键词。
3.如权利要求1所述的热点事件信息处理方法,其特征在于,所述根据各个关键词对应的文本信息的网络流量数据,获取各个关键词的流量热度值包括:根据包含目标关键词的文本信息的网络流量数据占所述多个文本信息的总网络流量数据的流量比值,确定目标关键词的流量热度值。
4.如权利要求3所述的热点事件信息处理方法,其特征在于,所述关键词对应的文本信息的网络流量数据包括包含关键词的文本信息的至少一种流量类型的网络流量数据;所述根据各个关键词对应的文本信息的网络流量数据,确定各个关键词的流量热度值包括:
获取包含目标关键词的文本信息的各个流量类型的网络流量数据分别与所述多个文本信息的对应类型的总网络流量数据的流量比值;
根据目标关键词对应各个流量类型的流量比值的乘积,确定目标关键词的流量热度值。
5.如权利要求1所述的热点事件信息处理方法,其特征在于,所述根据各个热点词语之间的相关度,将确定得到的热点词语进行热词聚类包括:根据各个热点词语之间的互信息、热度向量协同度或语义相关度确定各个热点词语之间的相关度。
6.如权利要求5所述的热点事件信息处理方法,其特征在于,所述根据各个热点词语之间的热度向量协同度确定各个热点词语之间的相关度包括:将多个预设时间段内包含某个热点词语的文本信息的网络流量数据作为该热点词语的多维热度向量,其中每个预设时间段内包含该热点词语的网络流量数据分别作为该热点词语的多维热度向量中一维向量值;
计算分别与两个热点词语对应的多维热度向量之间的余弦值,作为这两个热点词语之间的热度向量协同度;
根据各个热点词语之间的热度向量协同度确定各个热点词语之间的相关度。
7.如权利要求1所述的热点事件信息处理方法,其特征在于,所述方法还包括:分别将所述至少一个事件热词聚类中的热点词语与目标文本信息中包含的分词进行比较;
根据所述目标文本信息中包含的热点词语,确定所述目标文本信息关联的事件热词聚类。
8.如权利要求7所述的热点事件信息处理方法,其特征在于,所述根据所述目标文本信息中包含的热点词语,确定所述目标文本信息关联的热点事件包括:根据目标文本信息中包含的分别属于不同事件热词聚类中的热点词语的个数,确定所述目标文本信息关联的事件热词聚类。
9.如权利要求7或8所述的热点事件信息处理方法,其特征在于,所述热点词语包括中心热词和周边热词;所述将流量热度值高于第一预设阈值的关键词确定为热点词语包括:
将流量热度值不低于第二预设阈值的关键词确定为中心热词,并将流量热度值低于第二预设阈值并高于第一预设阈值的关键词确定为周边热词;
所述根据所述目标文本信息中包含的热点词语,确定所述目标文本信息关联的事件热词聚类包括:
所述目标文本信息的分词中包含其关联的事件热词聚类中的至少一个中心热词和至少一个周边热词。
10.一种热点事件信息处理装置,其特征在于,包括:文本分词模块,用于对多个文本信息进行文本分词处理得到各个文本信息中包含的分词;
关键词提取模块,用于根据所述处理得到的各个分词的统计数据,从各文本信息包含的分词中提取至少一个关键词;
热度值获取模块,用于根据各个关键词对应的文本信息的网络流量数据,获取各个关键词的流量热度值;
热词确定模块,用于将流量热度值高于第一预设阈值的关键词确定为热点词语;
事件热词聚类模块,用于根据各个热点词语之间的相关度,将确定得到的热点词语进行热词聚类,得到至少一个事件热词聚类。
11.如权利要求10所述的热点事件信息处理装置,其特征在于,所述关键词提取模块用于:通过词频‑逆文档频率算法或文档排名算法,从各文本信息包含的分词中提取至少一个关键词。
12.如权利要求10所述的热点事件信息处理装置,其特征在于,所述热度值获取模块用于:根据包含目标关键词的文本信息的网络流量数据占所述多个文本信息的总网络流量数据的流量比值,确定目标关键词的流量热度值。
13.如权利要求12所述的热点事件信息处理装置,其特征在于,所述关键词对应的文本信息的网络流量数据包括包含关键词的文本信息的至少一种流量类型的网络流量数据;所述热度值获取模块包括:
分类热度获取单元,用于获取包含目标关键词的文本信息的各个流量类型的网络流量数据分别与所述多个文本信息的对应类型的总网络流量数据的流量比值;
热度值计算单元,根据目标关键词对应各个流量类型的流量比值的乘积,确定目标关键词的流量热度值。
14.如权利要求10所述的热点事件信息处理装置,其特征在于,所述事件热词聚类模块用于:根据各个热点词语之间的互信息、热度向量协同度或语义相关度确定各个热点词语之间的相关度。
15.如权利要求14所述的热点事件信息处理装置,其特征在于,所述事件热词聚类模块包括:热度向量获取单元,用于将多个预设时间段内包含某个热点词语的文本信息的网络流量数据作为该热点词语的多维热度向量,其中每个预设时间段内包含该热点词语的网络流量数据分别作为该热点词语的多维热度向量中一维向量值;
协同度获取单元,用于计算分别与两个热点词语对应的多维热度向量之间的余弦值,作为这两个热点词语之间的热度向量协同度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611117512.1/,转载请声明来源钻瓜专利网。
- 上一篇:关联文书的确定方法和装置
- 下一篇:推送热词的方法及装置