[发明专利]一种基于卷积神经网络与随机森林的短文本分类方法有效
申请号: | 201710181062.0 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107066553B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 刘泽锦;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络与随机森林的短文本分类方法,属于文本分类与深度学习领域。针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题,提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征,然后采用随机森林作为高阶特征分类器,从而提高短文本分类效果。在三个公开实验数据集上的结果表明,与其他算法相比CNN‑RF在多个评价指标上均有明显优势。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 随机 森林 文本 分类 方法 | ||
【主权项】:
一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法包括以下步骤:步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图;步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmod变换,得到两个池化层特征图;步骤3:对步骤2的得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图;步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该集合进行Boostrap采样,Bootstrap采样是一种统计学上的抽样方法,对于有m个样本的数据集D,进行m次有放回采样得到新数据集D′,明显D与D′大小相同,而且放回采样使得D′中有重复出现的样本,也有样本没有出现;步骤5:对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART,Gini系数用于特征选择,用该特征将特征空间进行划分,划分之后从特征集合中去除此特征,对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件;此外为防止决策树过拟合现象的发生,本方法采用预剪枝操作;将多个决策树组合起来,共同为样本的类别进行决策,通常采用投票法。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710181062.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种游戏用户数据的存储方法及系统
- 下一篇:微博相关人物推荐方法