[发明专利]一种基于因子图模型的社交网络多任务预测方法在审

专利信息
申请号: 201710770816.6 申请日: 2017-08-31
公开(公告)号: CN107451703A 公开(公告)日: 2017-12-08
发明(设计)人: 张子柯;林松;刘闯 申请(专利权)人: 杭州师范大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q10/06;G06Q30/02;G06Q30/06;G06Q50/00;G06F17/30
代理公司: 杭州天正专利事务所有限公司33201 代理人: 王兵,黄美娟
地址: 311121 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于因子图模型的社交网络多任务预测方法,包括以下步骤第一步,网络数据获取,具体包括网络数据爬取、数据预处理;第二步,建立多任务因子图模型,具体包括网络特征提取、网络迁移结构构建、因子图模型构建;第三步,预测结果评估。
搜索关键词: 一种 基于 因子 模型 社交 网络 任务 预测 方法
【主权项】:
一种基于因子图模型的社交网络多任务预测方法,包括以下步骤:第一步,网络数据获取:通过网络爬虫收集用户社交信息和行为信息,并对爬取的数据进行清理,方便后续计算,主要包括网络数据爬取和数据预处理。(11)网络数据爬取:爬取用户社交行为信息和用户对商品的行为信息,每条信息包括:用户UserID和用户UserID,用户UserID和商品ItemID。(12)数据预处理:为了方便后续计算,需要清理数据中冗余、不完整的数据,形成模型所需要的统一的用户和用户社交行为矩阵w1,用户和商品评分行为矩阵w2。在矩阵w1中,矩阵中元素w1ij表示用户i和用户j之间的好友、关注关系,在矩阵w2中,矩阵中元素w2ij表示用户i和商品j之间的收藏、购买、评价关系。第二步,建立多任务因子图模型:(21)网络特征提取:因子图模型是一个监督学习模型,需要利用网络中的异构信息为社交链接和评分链接提取特征。在社交网络中对于一个特定的节点i,提取节点的特征,包括度k(vi),出度kout(vi),入度kin(vi),聚类系数ci。对于社交网络节点对i和j,相似性指标是预测其在网络中是否连接的最相关的特征。因此,提取了一些传统的相似性指标作为特征。交叉网络(用户和商品的评分关系)也隐藏着社交网络节点对的信息,两名用户共同评论的商品越多,则他们是朋友的可能性越大。基于此,根据交叉网络提取一些相似性指标。类似的,对于交叉网络目标节点对用户i和商品a,根据上述相似性指标来提取特征。(22)网络迁移结构构建:迁移结构是因子图模型中重要的因子,边的标签信息可以在结构上可以发生迁移。在这项工作中用三角形来构建迁移结构,使得信息可以在社交网络内部,社交网络和交叉网络之间发生传播。(23)因子图模型构建:耦合网络G=(Gs,GC)可以分为一个社交网络Gs和一个交叉网络GC,目标是学习一个模型同时预测潜在的社交链接和评分链接对于网络中的节点对eij,用标签ye代表其状态,当ye=1表示节点对之间存在一条边,当ye=0表示节点对之间不存在边。最终模型输出的标签ye=1的概率P(ye=1)。(a)联合概率分布对于耦合社交网络G=(V,E,X),V={vi}代表节点集,E={eij}代表节点对集合,是一个属性矩阵,每一行代表节点对eij对应的属性向量,目标是估计每条未知链路形成的概率P(ye|xe)。用P(Y|X,G)代表网络的联合概率分布,G代表网络的所有信息。这种联合概率分布表明链路的标签不仅与节点对的局部属性有关还和网络的结构有关,联合概率分布可实例化为:P(Y|X,G)=Πe∈ESΠi=1dP(yes|xeis)Πe∈ECΠi=1d′P(yec|xeic)Ππ∈ΠΠϵ∈πP(Yϵ)---(1)]]>其中,d和d′分别表示社交网络和交叉网络的特征维度,xei表示节点对e的第i个属性值,ES代表社交网络中的节点对集合,EC代表交叉网络上的节点对集合表示社交网络中在属性条件下的概率,表示交叉网络中在属性条件下的概率,P(Yε)表示迁移结构的影响,Π代表迁移结构的种类,π代表一种类型的迁移结构,ε代表其中的一个迁移结构。(b)实例化因子原则上,属性关联特征函数和社会关联特征函数可以通过不同的方式实例化。这里采用马尔科夫随机场中的Hammersley‑Clifford理论来对其进行建模:P(yes|xeis)=1Z1exp{αifi(xeis,yes)}---(2)]]>P(yec|xeic)=1Z2exp{βigi(xeic,yec)}---(3)]]>P(Yϵ)=1Z3exp{γϵhϵ(Yϵ)}---(4)]]>fi(*)、gi(*)hε(*)分别为社交网络、交叉网络、迁移结构的特征函数,αi、βi、γε是对应其权重,Z1、Z2、Z3为归一化因子。(c)目标函数优化结合上述公式,最后得到目标函数:其中,Z=Z1Z2Z3为归一化因子。用随机梯度下降的方法,可以得到每个参数的梯度:和E[hε(Yε)]分别表示数据分布的函数hε(Yε)的期望,和是根据估计模型在Pα,β,γ(Y|X,G)分布下的期望。第三步,预测结果评估:衡量本方法有效性的指标有AUC、Precision和Ranking Score共3种。它们对预测精确度衡量的侧重点不同:AUC(area under the receiver operating characteristic curve)从整体上衡量算法的精确度。Precision只考虑对排在前L位的边是否预测准确。而Ranking Score更多考虑对所预测的边的排序。AUC可以理解为在测试集中的边的分数值有比随机选择的一个不存在的边的分数值高的概率,也就是说,每次随机从测试集中选取一条边与随机选择的不存在的边进行比较,如果测试集中的边的分数值大于不存在的边的分数值,就加1分;如果两个分数值相等,就加0.5分。独立地比较n次,如果有n′次测试集中的边的分数值大于不存在的边的分数,有n″次两分数值相等,则AUC定义为:AUC=n′+0.5n′′n]]>显然,如果所有分数都是随机产生的,AUC=0.5。因此AUC大于0.5的程度衡量了算法在多大程度上比随机选择的方法精确。Precision定义为在前L个预测边中被预测准确的比例。如果有m个预测准确,即排在前L的边中有m个在测试集中,则Precision定义为:Precision=mL]]>显然,Precision越大预测越准确。如果两个算法AUC相同,而算法1的Precision大于算法2,说明算法1更好,因为其倾向于把真正连边的节点对排在前面。Ranking Score主要考虑测试集中的边在最终排序中的位置。令H=U‑ET为未知边的集合(相当于测试集中的边和不存在的边的集合),ri表示未知边i∈E在排序中的排名。则该条未知边的Ranking Score值为RSi=ri/|H|,其中|H|表示集合H中元素的个数遍历所有在测试集中的边,得到系统的Ranking Score值为:RS=1|EP|Σi∈EPRSi=1|EP|Σi∈EPri|H|.]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710770816.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top