[发明专利]基于社交媒体的动态用户属性提取方法有效
申请号: | 201610767430.5 | 申请日: | 2016-08-30 |
公开(公告)号: | CN106354818B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 杨阳;黄秀;胡玥;沈复民;邵杰 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q50/00 |
代理公司: | 51203 电子科技大学专利中心 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于社交媒体的动态用户属性提取方法。本发明首先对采集的训练样本集进行文本预处理后,进行主题词提取,得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分,通过时间滑窗进行数据填充得到各时间子段的文本数据,并进行文本预处理后,统计各主题的主题词的出现频率,得到各主题的属性权重信息,再引入时间衰减系数,以时间顺序依次得到关联时间属性的用户属性特征,取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,且可以从用户发布或者转发的微博文本中提取出用户的动态属性。 | ||
搜索关键词: | 基于 社交 媒体 动态 用户 属性 提取 方法 | ||
【主权项】:
1.基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:/n步骤1:主题提取:/n101:采集训练样本集:/n提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;/n由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;/n102:采用BTM模型对训练样本集进行文本主题提取处理,得到K个主题,每个主题包括一系列关键词,同时会得到各关键词的权重信息,其中BTM模型表示Biterm Topic Model;/n并从每个主题的关键词中选择权重最大的前m个作为主题词,同时记录各主题词的权重信息;/n步骤2:用户动态属性提取:/n201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;/n通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;/n步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610767430.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种秸秆纤维多功能一体机
- 下一篇:一种便于清洗的造纸用分级碎浆设备