[发明专利]基于组合凸线性感知器的两类文本分类方法有效

专利信息
申请号: 201610083975.4 申请日: 2016-02-06
公开(公告)号: CN105760471B 公开(公告)日: 2019-04-19
发明(设计)人: 李玉鑑;王曼丽 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于组合凸线性感知器的两类文本的分类方法。本发明包括:收集文本数据集,将其划分为训练集和测试集;预处理数据集;提取总词表并统计词频;对训练样本集进行特征选取,得到特征向量表;将数据集中的所有样本特征项赋权值表示成向量;将所有数据降维到低维特征空间,得到组合凸线性感知器最终处理的数据;利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别。本发明结合tf*idf特征提取法和PCA降维方法,使用SMA算法进行两类文本分类,这是首次将组合凸线性感知器应用到文本分类领域,非常具有独创意义。
搜索关键词: 基于 组合 线性 感知 文本 分类 方法
【主权项】:
1.一种基于组合凸线性感知器的两类文本的分类方法,其特征在于包括以下步骤:步骤一,收集文本数据集,将收集得到的文本数据集分为训练样本集和测试样本集;步骤二,预处理数据集,方法如下:对文本数据样本进行分词,实现单词字符小写化、去停用词以及删除标点符号的初步处理,同时,统计每个测试样本以及训练样本的词频;步骤三,对训练样本集,提取出总词表,方法如下:对于总词表中的每一个词项,统计包含该词项的正类样本个数和负类样本个数,过滤掉训练样本集中所有正、负类文档频率均小于3的词项,得到总词表;步骤四,对训练样本集进行特征选取,得到特征向量表;具体方法如下:对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别ci的χ2统计值χ2(t,ci);若χ2统计值越高,说明它与该类之间的相关性越大,同时携带的类别信息也比较多,计算公式如下:其中,N表示训练样本集中的文本总数,A表示属于ci类且包含t的文档频数,B表示不属于ci类但是包含t的文档频数,C表示属于ci类但是不包含t的文档频数,D是既不属于ci也不包含t的文档频数;步骤五,为数据集中所有样本特征项赋权值,得到每个样本的向量表示;采用tf·idf的赋权值方法,其中tf是词频,idf是逆向文件频率;对于词项tk,令文本d关于tk的权值为ωk,产生文本d的向量表示d=(ω12,…ωk…,ωn);根据tf·idf计算权值ωk的公式为:ωk=tfk·idfk其中,tfk表示词项tk在文档d中的出现频率,已由步骤二得到,idfk值的计算方法如下:其中,N表示训练样本集中的文本总数,dfk表示包含tk的所有文档数目;步骤六,对步骤五得到的所有样本向量组,包括训练集与测试集的所有数据,采用主成分分析对文本特征信息进行降维;这里,将训练样本集处理得到k维向量集合称为T1,将测试样本集处理得到k维向量集合称为T2;其中,T2即最终的测试样本集合;步骤七,对T2每一个测试样本t,利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别;其中,判断测试样本类别的具体步骤如下:(1)输入由步骤六得到的训练样本集合T1和测试样本集合T2;(2)将T1分为正类样本集合X'和负类样本集合Y',P为正类文本个数,F为负类文本个数:X'={xi,1≤i≤P},Y'={yj,1≤j≤F};(3)根据SMA算法构造X'关于Y'组合凸线器,其构造步骤如下:①找到当前X'关于Y'最近的两个样本,即对X'中的任意向量样本xi,对Y'中的任意向量样本yj,计算xi与yj的距离dij=d(xi,yj),公式如下:比较所有dij的值,得到当前所有dij的最小值dmin,即dmin=min{dij,1≤i≤P,1≤j≤F};如果dmin<ε,ε取值0.000001,则输出“X'和Y'不可分”,停止并退出;②使用I和J分别用于存储X'和Y'的指标,即I={i,1≤i≤P},J={j,1≤j≤F};g用于存贮凸线器的组别数,lg存贮第g组凸线器含有的线性判别函数的个数,g、lg初值均赋为1,即g=1,lg=1;③分配数据空间J1用于存贮J的子集,并把J赋给J1,即J1=J;④分配数据空间I1用于存贮I的子集,并把I赋给I1,即I1=I;⑤找到当前I1关于J1最近的两个样本xm和yn,m和n的值计算公式如下:(m,n)=argmin{dij,i∈I1,j∈J1};⑥得到第g组的第lg个线性判别函数计算公式如下:其中,⑦使用上一步得到的线性判别函数将I1中已正确划分类别的数据去除,形成新的I1集,即从I1中删除所有满足条件的指标i,I1更新为:⑧如果I1仍存在数据未正确划分类别,那么继续求第g组的下一个线性判别函数,先更新lg,lg的值增加1,再求当前J1中单个点距整个新I1集的最近点对,即计算m=argmin{din,i∈I1},返回步骤⑥;否则,用Lg存贮lg的当前值,显然,Lg表示X'关于Y'的组合凸线器中的第g组线性判别函数的总个数;⑨将J1中已正确划分类别的数据去除,即从J1中删除所有满足条件的指标j,J1更新为:⑩如果J1中仍存在数据未正确划分类别,那么继续求下一组凸线器,先更新g,g的值增加1,再返回步骤⑤;否则,用变量G存贮g的当前值,显然,G表示X'关于Y'的组合凸线器包含的线性判别函数的总组数;(4)得到X'关于Y'的组合凸线器MCLP,即其中:(5)根据该组合凸线器MCLP,由决策函数判断T2中每一个测试样本t的类别,具体决策函数如下:其中,+1表示正类,‑1表示负类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610083975.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top