[发明专利]一种基于多标签分类的税务文档层次分类方法有效
申请号: | 201410400522.0 | 申请日: | 2014-08-14 |
公开(公告)号: | CN104199857B | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 刘均;马健;郑庆华;张未展;吴蓓 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 陆万寿 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多标签分类的税务文档层次分类方法,先从隐含狄利克雷分布模型中抽取生成的主题分布,构建税务文档的隐含狄利克雷分布主题特征。然后构建训练数据对应的tf·idf特征向量,计算包含训练数据和待分类文档的tf·idf特征向量,计算相似度获取候选类别标签。最后对候选类别标签节点的源数据补充辅助数据,用迁移学习算法TrAdaBoost构建基于迁移学习的多标签分类模型,对待分类文档进行分类。该方法将层次分类问题转换成“搜索‑分类”两阶段过程,使用增量式候选类别搜索大大减少计算量,降低计算复杂度,用基于迁移学习的多标签分类模型将税务文档映射到税种层次类别上,有效利用了辅助数据,提升了分类性能。 | ||
搜索关键词: | 一种 基于 标签 分类 税务 文档 层次 方法 | ||
【主权项】:
一种基于多标签分类的税务文档层次分类方法,其特征在于,包括以下步骤:1)税务文档主题特征构建:1‑1)对待分类的税务文档进行去噪预处理,得到待分类文档;1‑2)指定待分类文档的主题个数,从隐含狄利克雷分布模型中抽取生成的主题分布,构建待分类文档的隐含狄利克雷分布主题特征,得到待分类文档的主题分布以及每个主题对应词的分布;指定待分类文档的主题个数为10~20个;2)增量式候选类别搜索:2‑1)将若干篇已经标过分类标签的税务文档作为训练数据,去除训练数据中的停用词,构建训练数据的tf·idf特征向量,将tf矩阵中不为0的词表进行存储,并将生成的词汇列表、tf列表、idf值列表按序存储;2‑2)对于待分类文档r,根据保存的词汇列表计算tfr值,tfr值是待分文档r的tf向量,将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面,然后根据tfr值重新计算idf值,重新计算tf·idf特征向量,得到包含训练数据和待分类文档的tf·idf特征向量;2‑3)计算待分类文档r和训练数据的相似度,获取候选类别标签;3)基于迁移学习的训练数据构建及多标签分类:3‑1)对于每个候选类别标签节点,其本身对应的训练数据为源数据,借助其祖先节点和孩子节点对应的训练数据对源数据进行补充,补充的训练数据为辅助数据;3‑2)利用迁移学习算法TrAdaBoost从辅助数据中选择出适合用于构建分类模型的数据,并构建基于迁移学习的多标签分类模型;3‑3)利用基于迁移学习的多标签分类模型,结合隐含狄利克雷分布主题特征,对待分类文档进行分类,得到待分类文档所属的税种层次类别;所述的步骤1‑1)中对待分类的税务文档进行去噪预处理的具体步骤为:先将待分类的税务文档转换成文本格式,对转换后的税务文档进行数据清洗,删除由于转换导致的乱码文档,去除重复文档,同时去除元数据信息,其中元数据信息包括文档标题和作者;所述的步骤3‑1)的具体操作为:对于候选类别标签节点Ca和其他任意的候选类别标签节点Cb,对于Ca的任意祖先节点Pa,在满足时,将Pa对应的训练数据补充到Ca的源数据中,并将Pa的其他非候选类别标签节点的孩子节点对应的训练数据补充到Ca的源数据中,同时将Ca的孩子节点对应的训练数据补充到Ca的源数据中,其中P(Cb)表示Cb的祖先节点的集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410400522.0/,转载请声明来源钻瓜专利网。