[发明专利]一种基于混合距离依赖中餐馆过程的层次化主题建模方法在审
申请号: | 201410706246.0 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104484346A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 汤斯亮;吴飞;李斯;鲁伟明;邵健;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于混合距离依赖中餐馆过程的层次化主题建模方法,包括如下步骤:首先用自然语言处理(NLP)工具从新闻文档中提取出事件要素;然后利用这些要素和文档内容作为产生文档之间链接的依据;在模型的估计过程中这些链接和他们相连的点(即文档)构成一个有向无环图(DAG),亦即事件发展结构图;最后将类似的事件聚集到一起,形成主题。本发明具有的有益效果有:能够在保证模型简单灵活的前提下涵盖多个事件要素;模型的输出既是层级的又是结构化的,这保证了既能找出事件,又能够发掘出其主题;对于一个特定的事件,可以描述出它的发展过程;具有良好的可扩展性,可作为多种应用的算法基础。 | ||
搜索关键词: | 一种 基于 混合 距离 依赖 餐馆 过程 层次 主题 建模 方法 | ||
【主权项】:
一种基于混合距离依赖中餐馆过程的层次化主题建模方法,其特征在于包括如下步骤:1)对新闻文档数据进行预处理,提取事件要素实体词,包括时间、地点、人物;2)根据实体词和文档内容计算出每两个文档之间的相似度,根据基于相对熵的方法计算出每两个事件之间的相似度,事件是指属于同一个类的所有文档;3)利用以上两种相似度,结合混合距离依赖的中餐馆过程先验,通过坍缩吉布斯采样,对每个文档选择与其最相似的文档并连接,即得到每个文档的链接,如果选择的文档是自己则进一步选择与该文档最相似的一个主题;4)重复步骤3)迭代地确定所有链接和主题;5)根据链接和主题的最终分配结果得到事件的发展结构图及其所属的主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410706246.0/,转载请声明来源钻瓜专利网。