[发明专利]文本过滤的方法及装置在审

申请号：	201611036246.X	申请日：	2016-11-23
公开（公告）号：	CN108090075A	公开（公告）日：	2018-05-29
发明（设计）人：	王研;车斌	申请（专利权）人：	中移（杭州）信息技术有限公司;中国移动通信集团公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	张振伟;蒋雅洁
地址：	310012 浙江省杭州市西***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本过滤的方法，包括：将目标领域划分为n个单元领域并设置各自对应的相似度阈值和参照文本；分别将所有参照文本和待过滤文本通过LDA模型训练得到第一主题‑单词分布向量的集合和第二主题‑单词分布向量；分别将所有参照文本和待过滤文本通过关键词模型训练得到第一关键词向量的集合和第二关键词向量；将第一主题‑单词分布向量的集合与第一关键词向量的集合进行组合得到第一组合向量的集合，将第二主题‑单词分布向量与第二关键词向量进行组合得到第二组合向量；根据第一组合向量的集合、第二组合向量、每个单元领域的相似度阈值三者之间的预设规则确定出待过滤文本的结果。本发明同时还公开了一种文本过滤的装置。
搜索关键词：	集合关键词向量文本分布向量组合向量单词文本过滤过滤单元领域相似度关键词模型目标领域预设规则
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本过滤的方法，其特征在于，所述方法包括：将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本，所述n为自然数；将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中移（杭州）信息技术有限公司;中国移动通信集团公司，未经中移（杭州）信息技术有限公司;中国移动通信集团公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611036246.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本过滤的方法及装置在审

专利文献下载