[发明专利]基于维数约简的集成迁移文本分类方法无效

专利信息
申请号: 201310090096.0 申请日: 2013-03-20
公开(公告)号: CN103218405A 公开(公告)日: 2013-07-24
发明(设计)人: 王爽;焦李成;刘婷婷;李鹏;侯彪;刘芳 申请(专利权)人: 西安电子科技大学;西安电子科技大学昆山创新研究院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 710126 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于维数约简的集成迁移文本分类方法,包括步骤:1.入源域文本数据和目标域文本数据,进行预处理,将文本数据转化为单词向量形式;2.标记的源域数据集进行Boostrap随机采样遍,获取相应的个源域子集,再别与目标域测试样本组合成新的数据子集;3.个新的数据子集进行SVD分解并降维,投影到低维空间;4.低维空间中,采用近邻分类器作为基本分类器,由降维后的源域样本预测目标域测试样本的标签,每个测试样本得到个预测标签;5.多数投票的集成方式,得到测试文本数据的最终预测标签。本发明利用过期的源域样本对目标域文本分类,经维数约简后集成,大大提高了分类的正确率,并减少分类时间,降低分类复杂度。
搜索关键词: 基于 维数约简 集成 迁移 文本 分类 方法
【主权项】:
1.一种基于维数约简的集成迁移文本分类方法,其特征在于:包括以下步骤(1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;1c)将权重作为样本特征值,得到每个文本样本的特征向量;1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1;(2) 将提取到的特征输入到目标域测试样本集和源域有标记的样本集,其中,中的样本数目分别为;(3) 对有标记的源域样本集进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;3b) 以概率p从所述源域文本集中有放回的随机选取源域样本子集,样本数目为;3d) 将上步得到的源域子集分别与目标域样本集组合成新的数据子集,其中矩阵,每行表示一个样本向量,前行表示源域样本,后行表示目标域测试样本,则;(4) 分别将数据子集中的两领域样本进行SVD奇异值分解:;(5) 将数据集投影到低维空间,得到降维后的数据集;(6)在低维空间中,分别利用降维后的各数据子集中的源域样本对测试样本分类;(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;西安电子科技大学昆山创新研究院,未经西安电子科技大学;西安电子科技大学昆山创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310090096.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top