[发明专利]一种微博热词与热点话题挖掘系统及方法有效
申请号: | 201310725400.4 | 申请日: | 2013-12-25 |
公开(公告)号: | CN103678670B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 陈羽中;郭文忠;陈国龙;方明月 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及社交网络技术领域,特别是一种微博热词与热点话题挖掘系统及方法,所述方法包括如下步骤:对微博中发布的内容数据进行预处理,获得候选热词序列;根据候选热词集合,考虑候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词集合;根据筛选出的热词集合,计算热词相关性,构造热词共现网络;根据热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。该系统及方法可以实现微博热词与热点话题的高效挖掘,提高了挖掘精度和处理效率。 | ||
搜索关键词: | 一种 微博热词 热点话题 挖掘 系统 方法 | ||
【主权项】:
一种微博热词与热点话题挖掘方法,其特征在于,所述方法包括如下步骤:步骤A:对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;步骤B:根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;步骤C:计算所述热词集合中各个热词的相关性,并以此构造热词共现网络;步骤D:根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集;所述步骤B中,筛选热词并构建热词集合的过程,具体包括以下步骤:步骤B1:计算在时间段t内,各个候选热词的营养值;候选热词w的营养值Nutrw,t为在时间段t内,微博集合twt中每条微博对候选热词w的营养值的贡献之和,计算公式为:Nutrw,t=Σj∈twtContrw,j]]>其中,Contrw,j为在时间段t内,第j条微博对候选热词w的营养值的贡献,j∈twt,计算公式为:Contrw,j=tfw,jtfjmax]]>其中,tfw,j表示第j条微博中出现候选热词w的次数,表示第j条微博中的最大词频;步骤B2:利用候选热词w的突发值来描述候选热词w的词频在当前时间段与历史时间段之间变化的剧烈程度;候选热词w的突发值Bw,t的计算方法为:取时间段t之前的k个历史时间窗口,历史时间窗口大小与时间段t相同,然后基于二项式分布的离散事件模型,分别统计在时间段t和时间段t之前k个历史时间窗口内包含候选热词w的微博数,采用χ2统计公式,计算候选热词w在时间段t内的突发值,计算公式为:Bw,t=(A+B+C+D)(AD-BC)2(A+B)(C+D)(A+C)(B+D)]]>其中,A表示在时间段t内,包含候选热词w的微博数;B表示在k个历史时间窗口内,包含候选热词w的平均微博数;C表示在时间段t内,不包含候选词w的微博数;D表示在k个历史时间窗口内,不包含词候选热词w的平均微博数;步骤B3:结合各个候选热词的营养值和突发值,计算每个候选热词的生命力值;归一化的候选热词w的生命力值lifew,t的计算方法为:lifew,t=Bw,t*Nutrw,tmaxw′∈terms(Bw′,t*Nutrw′,t)]]>其中,terms表示候选热词集合,w’表示候选热词集合terms中的元素;步骤B4:根据候选热词的生命力值,对候选热词集合中的候选热词进行排序,筛选出排序靠前的L个候选热词作为热词,并以此构成热词集合;该方法对应的微博热词与热点话题挖掘系统包括:预处理模块,用于对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;热词筛选模块,用于根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;热词共现网络构造模块,用于计算热词集合中各个热词的相关性,并以此构造热词共现网络;热词聚类模块,用于根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310725400.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于网站信息的投放方法和装置
- 下一篇:一种BOM表分类汇总系统及其方法