[发明专利]一种基于社交媒体文本的大五人格预测方法在审

申请号：	201810067066.0	申请日：	2018-01-24
公开（公告）号：	CN108399575A	公开（公告）日：	2018-08-14
发明（设计）人：	林鸿飞;徐博;彭朝亮	申请（专利权）人：	大连理工大学
主分类号：	G06Q50/00	分类号：	G06Q50/00;G06N3/04
代理公司：	大连星海专利事务所有限公司 21208	代理人：	徐雪莲
地址：	116023 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于社交媒体文本的大五人格预测方法，包括A、预处理、B、用户特征抽取、C、大五人格预测模型建立及训练、D、预测用户大五人格四个步骤。本发明基于机器学习方法和用户在社交媒体发布的文本信息挖掘用户的大五人格性格偏好，进而实现精准的用户画像，为个性化搜索和推荐奠定技术基础。
搜索关键词：	媒体文本预测预处理文本信息挖掘个性化搜索基于机器技术基础媒体发布用户特征预测模型偏好抽取画像学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于社交媒体文本的大五人格预测方法，其特征在于，包括以下步骤：A、预处理：采集社交媒体用户发布的微博文本内容、微博发布时间、微博总条数、原创微博个数并保存为社交媒体用户数据集；所述社交媒体用户数据集中分别将每个社交媒体用户所发布的微博文本内容、微博发布时间、微博总条数、原创微博个数作为一组数据保存，以使每组数据对应一个社交媒体用户；在社交媒体用户数据集中随机抽取80％组数据作为训练数据集，并将训练数据集中所对应的社交媒体用户作为训练用户；余下组数据作为待预测数据集，并将待预测数据集中对应的社交媒体用户作为测试用户；对训练用户分发大五人格心理量表，采集并将训练用户给出的大五人格得分值保存为大五人格得分值向量以作为训练目标值；提取社交媒体用户数据集中的微博文本内容，对微博文本内容做分词处理并去除停用词，得到对应于每个社交媒体用户的微博语料集；B、用户特征抽取：B1、计算每个社交媒体用户的原创微博占该用户所发微博总条数的比例微博发布频率和微博TF‑IDF向量，每个社交媒体用户u_j的微博TF‑IDF向量由社交媒体用户u_j所对应的微博语料集中各个词语的TF‑IDF值TFIDF_i组成：计算方法如下：其中，为社交媒体用户u_j的原创微博占用户u_j所发微博总条数的比例,1≤j≤N,N为社交媒体用户的总数量；为社交媒体用户u_j的原创微博个数，为社交媒体用户u_j所发微博总条数；为社交媒体用户u_j的微博发布频率，为社交媒体用户u_j的最后一条微博发布时间与第一条微博发布时间之间的时间间隔；其中，表示社交媒体用户u_j所发布的微博总条数，num(i)表示包含微博语料集中第i个词的微博个数，tf_k(i)表示社交媒体用户u_j所对应的微博语料集中的第i个词在第k条微博中出现的次数，length(k)表示社交媒体用户u_j所对应的微博语料集中的词语在第k条微博出现的总数；B2、提取步骤B1中得到的每个社交媒体用户u_j的微博总条数、原创微博个数、和每个社交媒体用户u_j的微博TF‑IDF向量，组成社交媒体用户的特征向量；并将所述训练用户的特征向量组成训练用户特征矩阵；将所述测试用户的特征向量组成待预测用户的特征矩阵；C、大五人格预测模型建立及训练：采用基于自编码器预训练的回归方法，该回归方法采用自编码器扩充社交媒体用户特征向量，进而基于线性回归模型，训练得到扩充后的社交媒体用户特征向量中各特征的权重值，所述特征包括每个社交媒体用户u_j的微博总条数、原创微博个数、和每个社交媒体用户u_j的微博TF‑IDF向量：包括以下步骤：C1、建立自编码器：y＝f(W1x+b1)x′＝g(W2y+b2)其中，x为输入层向量，y为隐藏层向量，x’为输出层向量，W1和W2分别为输入层到隐藏层和隐藏层到输出层的权重矩阵，b1和b2分别为输入层到隐藏层和隐藏层到输出层的权重偏置向量；C2、获取扩展训练用户特征向量：将步骤B2得到训练用户特征矩阵中每个训练用户的特征向量作为自编码器的输入层向量x输入自编码器中，初始化权重矩阵W1、W2，并使初始化后的W1、W2中各元素值相同，得到的隐藏层向量作为扩展训练用户特征向量；C3、构建特征权重向量的训练回归模型及模型训练：特征权重向量θ采用通用回归模型训练得到：构建特征权重向量θ的训练目标函数为：其中，yu是训练用户u的大五人格得分值，xu为训练用户u的特征向量；将全部训练用户的特征向量输入特征权重向量θ的训练目标函数中，训练得到特征权重向量θ；C4、获得损失值：构建自编码器训练的损失函数为：其中，xk表示自编码器输入的第k个社交媒体用户的特征向量，xk′表示自编码器输出的第k个用户特征向量；n表示训练集合中样本的个数；θ为特征权重向量；C5、构建大五人格预测模型及模型训练：目标函数如下：其中，yu是训练用户u的大五人格得分值，xu是社交媒体用户u的特征向量，xe,u是社交媒体用户u的扩展训练用户特征向量，β1和β2是模型参数，λ是惩罚项系数，惩罚项是模型参数的二阶范数；根据损失函数所获得的损失值，采用梯度下降策略更新目标函数循环迭代上述过程，直到达到指定迭代次数训练完成，得到确定的特征权重向量β₁和β₂获得最优的模型参数β₁和β₂；得到大五人格预测模型；D、预测用户大五人格：对于待预测数据集中对应的社交媒体用户，基于步骤C得到的大五人格预测模型，通过如下公式对特征向量线性加权预测用户的大五人格：其中，为待预测数据集中社交媒体用户的特征矩阵，是经自编码器扩展得到的扩展测试用户特征矩阵，β₁和β₂是经步骤C的训练模型参数训练得到的最优的模型参数；是社交媒体用户的大五人格得分预测值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810067066.0/，转载请声明来源钻瓜专利网。

上一篇：理赔数据获取方法、对接理赔子系统、介质及电子设备
下一篇：一种基于互联网的畜禽销售系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q50-00 专门适用于特定经营部门的系统或方法，例如公用事业或旅游
G06Q50-02 .农业；渔业；矿业
G06Q50-04 .制造业
G06Q50-06 .电力、天然气或水供应
G06Q50-08 .建筑
G06Q50-10 .服务

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于社交媒体文本的大五人格预测方法在审

专利文献下载