[发明专利]一种中文文字标签云自动生成方法及装置有效
申请号: | 201310319948.9 | 申请日: | 2013-07-26 |
公开(公告)号: | CN103440256B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 汪云海;华博;丹尼尔·科恩;陈宝权 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 宋鹰武;沈祖锋 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成方法和装置。本发明中文文字标签云自动生成方法,包括:步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。本发明的中文文字标签云自动生成方法和装置将中文分词和标签云算法结合并优化,填补了中文标签云生成算法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。 | ||
搜索关键词: | 一种 中文 文字 标签 自动 生成 方法 装置 | ||
【主权项】:
一种中文文字标签云自动生成方法,包括:步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;在所述步骤a中,所述汉语词法分析采用基于层叠隐马模型的汉语词法分析,所述汉语词法分析包括:在预处理阶段,采用N‑最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果;步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云;在所述步骤c中,标签云生成算法基于几何结构对关键词进行布局,所述标签云生成算法包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310319948.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种车载冷藏机组压缩机支架
- 下一篇:一种煤粉筛选装置