[发明专利]一种面向Twitter的社交广告可投放性分析方法有效
申请号: | 201410494291.4 | 申请日: | 2014-09-24 |
公开(公告)号: | CN104268130B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 张莹;赵雪;俞力;苏丽丽;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/02 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向Twitter的社交广告可投放性分析方法。包括创新地结合Twitter用户多种不同来源的语料信息,构建多源Twitter语料库,有效扩充Twitter短文本,便于推断用户发布内容的潜在广告价值,以实现精准广告受众定位;借鉴LDA模型思想,提出多源Twitter语料主题分析模型,对用户发布内容进行隐含语义分析;基于语义分析结果,设计特征选择、过滤和表示算法,构建逻辑回归分类器,关于广告可投放性进行分类,作为广告推荐的决策依据。本发明充分利用用户发布信息特点,能够准确推断其潜在广告价值。通过本发明可得到符合用户真实意图的推断结果。本发明可用于Twitter等社交网络下的广告推荐等领域。 | ||
搜索关键词: | 一种 面向 twitter 社交 广告 投放 分析 方法 | ||
【主权项】:
一种面向Twitter的社交广告可投放性分析方法,其特征在于该方法包括如下步骤:第1、构建多源Twitter语料库;定义1:社交网络Twitter用户发布的每一条内容为一条tweet;定义2:当前tweet为实时获得的每一条tweet,用符号C表示;定义3:最近tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前一星期内发布的tweet的集合,用符号R表示;定义4:历史tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前两星期至前一星期内发布的tweet的集合,用符号H表示;定义5:好友评论tweet为Twitter用户好友对当前tweet发布的评论tweet的集合,用符号F表示;定义6:多源Twitter语料库中tweet的四种不同来源,包括:当前tweet、最近tweet、历史tweet和好友评论tweet,构成语料源,用符号s表示,其中s=(C,R,H,F);定义7:多源Twitter语料库中的每一条语料,用m表示;定义8:多源Twitter语料库中的所有语料的个数,用M表示;第2、多源Twitter语料主题分析定义9:一条tweet中的词,用w表示;定义10:关于一条tweet的隐含语义,称为主题,用符号z表示;定义11:对于多源Twitter语料库,不同的语料来源对应的主题的构成有所不同,在每种语料源下,对应的所有可能的主题构成一个主题集合T,用4元组T=(TC,TR,TH,TF)表示,其中:①TC表示当前tweet对应的主题集合;②TR表示最近tweet对应的主题集合;③TH表示历史tweet对应的主题集合;④TF表示好友评论tweet对应的主题集合;每一条tweet关于各个主题的出现概率,都构成一个概率分布;定义12:每种语料源的所有tweet,关于对应主题集合中各个主题的概率构成tweet~主题概率分布,用符号θ表示;四种语料源下的所有tweet~主题概率分布θ,用4元组θ=(θC,θR,θH,θF)表示,其中:①θC表示当前tweet关于主题集合TC中各个主题的概率分布;②θR表示最近tweet关于主题集合TR中各个主题的概率分布;③θH表示历史tweet关于主题集合TH中各个主题的概率分布;④θF表示好友评论tweet关于主题集合TF中各个主题的概率分布;定义13:对于每种语料源和主题集合中的所有主题,关于对应词典中的所有词,构成主题~词概率分布用4元组表示;其中:①表示当前TC中各个主题关于词典VC中的各个词的概率分布;②表示当前TR中各个主题关于词典VR中的各个词的概率分布;③表示当前TH中各个主题关于词典VH中的各个词的概率分布;④表示当前TF中各个主题关于词典VF中的各个词的概率分布;第3、社交广告可投放性分类预处理定义14:有社交广告可投放性是根据Twitter用户发布的tweet,分析用户消费意图;如果该条tweet具备消费意图,则该条tweet成为具有社交广告可投放性,反之为不具有社交广告可投放性;第3.1、分类特征选择第3.1.1、对于多源Twitter语料库下的每一条语料m,获取主题概率分布4元组θs[m]=(θC[m],θR[m],θH[m],θF[m]);第3.1.2、对语料m的tweet~主题概率分布θs[m]按照概率值从大到小排序,得到排序后的4元组θs[m];定义15:在特征选择过程中,保留的主题称为目标主题,用K表示目标主题数;第3.1.3、对于排序后的4元组θs[m]中的每一个主题概率分布,只保留关于前K主题的概率值;定义16:经过特征选择后,多源Twitter语料库的所有语料关于各个目标主题的概率分布,称为目标主题分布,表示为4元组Θs=(ΘC,ΘR,ΘH,ΘF),其中:①ΘC表示当前tweet关于对应目标主题的概率分布;②ΘR表示最近tweet关于对应目标主题的概率分布;③ΘH表示历史tweet关于对应目标主题的概率分布;④ΘF表示好友评论tweet关于对应目标主题的概率分布;第3.1.4、对于主题集合中的每一个主题t,获取关于对应词典的词的概率分布4元组第3.1.5、对主题t的主题~词概率分布按照概率值从大到小排序,得到排序后的4元组定义17:在特征选择过程中,保留的词称为目标词,用N表示目标词数;第3.1.6、对于排序后的4元组中的每一个词概率分布,只保留前N个词的概率值;定义18:经过特征选择后,所有主题关于各个目标词的概率分布,称为目标词分布,表示为4元组Ψs=(ΨC,ΨR,ΨH,ΨF),其中:①ΨC表示主题集合TC关于对应目标词的概率分布;②ΨR表示主题集合TR关于对应目标词的概率分布;③ΨH表示主题集合TH关于对应目标词的概率分布;④ΨF表示主题集合TF关于对应目标词的概率分布;第3.2、特征提取第3.2.1、对于每种语料源s=(C,R,H,F)下的每条语料m,建立哈希表Ω,初始为空;第3.2.2、对于每条语料m:①遍历目标主题分布Θs[m]中的每一项,记下该项对应的目标主题及目标主题概率,记为(t,p);②再根据遍历到的每一个主题t,获取该主题对应的目标词及目标词概率,记为(w,q);③计算概率值的乘积:p*q;④在对应哈希表Ω中查找词w,若查找失败,则将词w与概率值乘积p*q一并插入到Ω;若w已存在于Ω中,则将对应位置处的概率值增加p*q;第3.3、特征表示扫描哈希表Ω中的每一个词w,建立词典υ,表示为4元组υ=(υC,υR,υH,υF);其中:①υC表示当前tweet对应的高语义关联词构成的词典,词典中词的个数记为|υC|;②υR表示最近tweet对应的高语义关联词构成的词典,词典中词的个数记为|υR|;③υH表示历史tweet对应的高语义关联词构成的词典,词典中词的个数记为|υH|;④υF表示好友评论tweet对应的高语义关联词构成的词典,词典中词的个数记为|υF|;定义19:语料m对应的tweet~词概率向量,称为社交广告可投放性分类特征向量;第4、构建社交广告可投放性分类器第4.1、根据社交广告可投放性分类特征向量,构造线性回归函数如下:hπ(x)=π0X0+π1X1+…+πnXn定义20:社交广告可投放性分类特征向量[X0,X1,…,Xn]的系数[π0,π1,…,πn]称为特征权重参数;定义21:将线性回归函数hπ(x)代入逻辑方程,逻辑方程的定义为:g(x)=exp(x)/(1+exp(x));第4.2、将线性回归函数hπ(x)代入逻辑方程g(x)以进行归一化,替换其中的变量x得到:g(hπ(x))=exp(hπ(x))/(1+exp(hπ(x)))=exp(π0X0+π1X1+…+πnXn)/(1+exp(π0X0+π1X1+…+πnXn));第4.3、利用牛顿迭代法获得特征权重参数的训练值[π0,π1,…,πn];第4.4、设置社交广告可投放性分类阈值,由于逻辑方程g(x)的阈值为[0,1],因此,根据实验经验,将社交广告可投放性分类阈值设置为g(x)的中间值0.5;第4.5、对于多源Twitter语料库中的每一条语料m,利用特征权重参数的训练值[π0,π1,…,πn]计算归一化后的线性回归函数g(hπ(x)),与阈值进行比较:如果大于阈值,则判定为具有社交广告可投放性;否则判定为不具有社交广告可投放性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410494291.4/,转载请声明来源钻瓜专利网。