[发明专利]微博媒体中的意见领袖识别方法有效
申请号: | 201310032394.4 | 申请日: | 2013-01-26 |
公开(公告)号: | CN103150333A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 郑中华;高威;帅志虎;周银行 | 申请(专利权)人: | 安徽博约信息科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种微博媒体中的意见领袖识别方法,包括网络意见收集,标准样本库标注,意见个体活跃度的分析,意见个体受关注度的分析,意见个体发文认同度的分析,意见领袖的分析和识别等六个步骤。本发明通过收集网络意见,对其进行意见个体活跃度、意见个体关注度、意见个体认同度三个方面的分析计算,以此为基础进行意见领袖的综合分析和识别。 | ||
搜索关键词: | 媒体 中的 意见 领袖 识别 方法 | ||
【主权项】:
1.微博媒体中的意见领袖识别方法,包括以下步骤:一、网络意见收集:网络意见的收集是通过微博平台用户发表的言论,通过网络的合法的收集下载,下载大量的微博发文及其评论信息,并针对相关的话题比较活跃的进行跟踪的下载,将所有的发文按照用户分类进行抽取、统计以提供各方面的分析;二、标准样本库标注:选取一段时间内,有发言的微博作者,由相关的意见领袖识别专家对该作者进行手工标注,给出是否为网络水军的判定,并从中选取一定量的微博作者放入标准样本数据库;该样本数据将作为后续意见领袖判定的标注样本集合;三、意见个体活跃度:1)个体活跃度由三个方面构成,包括,在某一段相关话题比较活跃的时间内,该作者平均每天发表的原创帖子数量记为Vorg,每天转发的帖子数量记为Vfor,每天评论的帖子数量记为Vrem,可以定义下述公式将该指标量化;L=WorgVorg+WforVfor+WremVrem (1)在(1)式中,Worg为原创帖子所占的活跃度权重,Wfor为转发帖子所占的活跃度权重,Wrem为评论帖子所占的活跃度权重;为了防止具有较大初始值的属性与具有较小初始值的属性相比,权重过大,需要先将上述三种帖子数量进行规范化后再代入公式进行计算;四、意见个体受关注度:如果意见个体所发的微博受关注程度越高,则越可能是意见领袖,为此定义平均转发数、平均浏览数、平均评论数三种指标如下;1)平均转发数M=Tt/N,其中:N为发文量,Tt为所有发文转发总数;2)平均浏览数S=Tc/N,其中:N发文量,Tc为所有发文浏览数的总数;3)平均评论数P=Td/N,其中:N发文量,Td为所有发文评论数的总数;4)平均转发数的权重比为Wm,平均浏览数的权重比为Ws,平均评论数的权重比为Wp;意见个体受关注度C=M*Wm+S*Ws+P*Wp (2)各个数量在代入(2)式计算时同样需要做归一化处理;五、意见个体发文认同度:对于某个主题或领域的意见领袖,其发表的微博观点往往会得到多数人的认同,定义意见个体发文认同度指标如下:B = Σ i = 1 k Agree i - DisAg ree i N + 1 - - - ( 3 ) ]]> 在(3)式中,Agreei表示意见个体发布的第i篇文章中所有持支持态度的评论数;DisAgreei表示持反对态度的评论数;k为意见个体发布的文章总数;N为所有参与评论的作者数量;六、意见领袖的分析和识别:针对步骤二中所述样本标注集合,计算出每一个作者的意见个体活跃度,意见个体受关注度,意见个体发文认同度后,可以得到一个三维特征向量(L,C,A),每个作者都代表三维空间中的一个点;对于一个未知的作者样本,在计算出其三维特征向量后,那么可以计算出样本数据集中离其最近的K个点,其中意见领袖和非意见领袖两个类别所占的个数表示成ki,i=1,2;i=1表示意见领袖,i=2表示非意见领袖,定义判别函数为:gi(x)=ki,i=1,2;决策规则为:
根据这个K个最近邻点中所占大多数的类别,可以预测出该作者是否为意见领袖。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技有限责任公司,未经安徽博约信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310032394.4/,转载请声明来源钻瓜专利网。