[发明专利]一种基于社交媒体文本的大五人格预测方法在审
申请号: | 201810067066.0 | 申请日: | 2018-01-24 |
公开(公告)号: | CN108399575A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 林鸿飞;徐博;彭朝亮 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06N3/04 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于社交媒体文本的大五人格预测方法,包括A、预处理、B、用户特征抽取、C、大五人格预测模型建立及训练、D、预测用户大五人格四个步骤。本发明基于机器学习方法和用户在社交媒体发布的文本信息挖掘用户的大五人格性格偏好,进而实现精准的用户画像,为个性化搜索和推荐奠定技术基础。 | ||
搜索关键词: | 媒体文本 预测 预处理 文本信息挖掘 个性化搜索 基于机器 技术基础 媒体发布 用户特征 预测模型 偏好 抽取 画像 学习 | ||
【主权项】:
1.一种基于社交媒体文本的大五人格预测方法,其特征在于,包括以下步骤:A、预处理:采集社交媒体用户发布的微博文本内容、微博发布时间、微博总条数、原创微博个数并保存为社交媒体用户数据集;所述社交媒体用户数据集中分别将每个社交媒体用户所发布的微博文本内容、微博发布时间、微博总条数、原创微博个数作为一组数据保存,以使每组数据对应一个社交媒体用户;在社交媒体用户数据集中随机抽取80%组数据作为训练数据集,并将训练数据集中所对应的社交媒体用户作为训练用户;余下组数据作为待预测数据集,并将待预测数据集中对应的社交媒体用户作为测试用户;对训练用户分发大五人格心理量表,采集并将训练用户给出的大五人格得分值保存为大五人格得分值向量以作为训练目标值;提取社交媒体用户数据集中的微博文本内容,对微博文本内容做分词处理并去除停用词,得到对应于每个社交媒体用户的微博语料集;B、用户特征抽取:B1、计算每个社交媒体用户的原创微博占该用户所发微博总条数的比例
微博发布频率
和微博TF‑IDF向量,每个社交媒体用户uj的微博TF‑IDF向量由社交媒体用户uj所对应的微博语料集中各个词语的TF‑IDF值TFIDFi组成:计算方法如下:![]()
其中,
为社交媒体用户uj的原创微博占用户uj所发微博总条数的比例,1≤j≤N,N为社交媒体用户的总数量;
为社交媒体用户uj的原创微博个数,
为社交媒体用户uj所发微博总条数;
为社交媒体用户uj的微博发布频率,
为社交媒体用户uj的最后一条微博发布时间与第一条微博发布时间之间的时间间隔;
其中,
表示社交媒体用户uj所发布的微博总条数,num(i)表示包含微博语料集中第i个词的微博个数,tfk(i)表示社交媒体用户uj所对应的微博语料集中的第i个词在第k条微博中出现的次数,length(k)表示社交媒体用户uj所对应的微博语料集中的词语在第k条微博出现的总数;B2、提取步骤B1中得到的每个社交媒体用户uj的微博总条数、原创微博个数、
和每个社交媒体用户uj的微博TF‑IDF向量,组成社交媒体用户的特征向量;并将所述训练用户的特征向量组成训练用户特征矩阵;将所述测试用户的特征向量组成待预测用户的特征矩阵;C、大五人格预测模型建立及训练:采用基于自编码器预训练的回归方法,该回归方法采用自编码器扩充社交媒体用户特征向量,进而基于线性回归模型,训练得到扩充后的社交媒体用户特征向量中各特征的权重值,所述特征包括每个社交媒体用户uj的微博总条数、原创微博个数、
和每个社交媒体用户uj的微博TF‑IDF向量:包括以下步骤:C1、建立自编码器:y=f(W1x+b1)x′=g(W2y+b2)
其中,x为输入层向量,y为隐藏层向量,x’为输出层向量,W1和W2分别为输入层到隐藏层和隐藏层到输出层的权重矩阵,b1和b2分别为输入层到隐藏层和隐藏层到输出层的权重偏置向量;C2、获取扩展训练用户特征向量:将步骤B2得到训练用户特征矩阵中每个训练用户的特征向量作为自编码器的输入层向量x输入自编码器中,初始化权重矩阵W1、W2,并使初始化后的W1、W2中各元素值相同,得到的隐藏层向量作为扩展训练用户特征向量;C3、构建特征权重向量的训练回归模型及模型训练:特征权重向量θ采用通用回归模型训练得到:构建特征权重向量θ的训练目标函数为:
其中,yu是训练用户u的大五人格得分值,xu为训练用户u的特征向量;将全部训练用户的特征向量输入特征权重向量θ的训练目标函数中,训练得到特征权重向量θ;C4、获得损失值:构建自编码器训练的损失函数为:
其中,xk表示自编码器输入的第k个社交媒体用户的特征向量,xk′表示自编码器输出的第k个用户特征向量;n表示训练集合中样本的个数;θ为特征权重向量;C5、构建大五人格预测模型及模型训练:目标函数如下:
其中,yu是训练用户u的大五人格得分值,xu是社交媒体用户u的特征向量,xe,u是社交媒体用户u的扩展训练用户特征向量,β1和β2是模型参数,λ是惩罚项系数,惩罚项是模型参数的二阶范数;根据损失函数所获得的损失值,采用梯度下降策略更新目标函数
循环迭代上述过程,直到达到指定迭代次数训练完成,得到确定的特征权重向量β1和β2获得最优的模型参数β1和β2;得到大五人格预测模型;D、预测用户大五人格:对于待预测数据集中对应的社交媒体用户,基于步骤C得到的大五人格预测模型,通过如下公式对特征向量线性加权预测用户的大五人格:
其中,
为待预测数据集中社交媒体用户
的特征矩阵,
是
经自编码器扩展得到的扩展测试用户特征矩阵,β1和β2是经步骤C的训练模型参数训练得到的最优的模型参数;
是社交媒体用户
的大五人格得分预测值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810067066.0/,转载请声明来源钻瓜专利网。