[发明专利]一种基于语义网无监督的自动问答方法有效
申请号: | 201510363362.1 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104933031B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 杨燕;杜泽宇;贺樑 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 监督 自动 问答 方法 | ||
本发明公开了一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,本发明是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答;其客观可行,并较之传统的问答方法能够回答复杂的知识问题。
技术领域
本发明涉及自动问答(QA)的技术领域,具体地说是基于语义网的无监督自动问答的方法。
背景技术
互联网的数据增长迅速,如今已经有很多基于语义网的知识库,(如DBpedia,Freebase,Yoga)。提高这些数据的质与量对互联网向语义网的跨越发展极为重要。同样,随着语义网数据不断完善,如何友好地查询和使用语义网也成为研究的焦点。提供用户友好的自然语言接口,是解决查询语义网问题的关键。而引入语义网技术来进行自动问答并不是依靠单一的算法解决的,而是通过一系列的技术合并完成。现有的语义网标准,提供了在语义网标注的网络数据,利用庞大的语义网知识库,可以获得其背后丰富的语义解释。虽然语义网的技术提供了丰富的语义知识,但基于语义网的自动问答系统仍然面临着两大难题:(1)用户和语义网之间转换存在困难:从自动问答的终端用户的角度来说,理解基于逻辑的复杂语义网非常的困难。必须能够允许传统的用户从表达丰富的信息需求的同时能够屏蔽语义网结构的复杂性。(2)语义网数据量大,增长快,异构性增强;现有的方法需要不断的完善来应对不断增长的异构知识数据。因此,在语义网基础上的自动问答系统亟需能够提供用户友好的接口以及能够支撑大量分布式的异构数据。最近几年,随着Google知识图谱概念和Siri知识搜索的应用,基于语义网的自动问答系统成为了最新最热的研究范畴。
传统的问答系统主要分为三种:(1) 基于文本的问答系统,即对于查询相关的文档进行检索,并从文档中提取出问题的答案。(2) 基于协同的问答系统,这类问答系统通常通过找到与用户提问最相似的问题,并检索答案,比如Yahoo!Answer and Quora。 (3)基于结构化数据的问答系统,这类问答系统通过搜索知识库而不是直接使用纯文本的语料,并将自然语言翻译成结构化的查询语言,比如SQL,SPARQL,以及其它的语言,而其中通过自然语言转换成SPARQL是现阶段最主流的基于语义网自动问答的研究范畴。
发明内容
本发明的目的是提供一种基于语义网无监督的自动问答方法,该方法是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答。
本发明的目的是这样实现的:
一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,通过查询处理模块对用户问题进行同义转换和词干化,通过查询生成模块,生成对应的SPARQL语句查询,并在支持语义网的用户终端中进行查询,具体操作步骤:
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
第二步:查询语义网中与用户询问存在相关的三元组;
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
第四步:查询语义网中与匹配到的实体词有连接的数据;
第五步:对于第二步至第四步生成的三元组组合成查询,并计算出与原始问题匹配值最高的sparql查询;具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510363362.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:个人填表信息辅助翻译方法及装置
- 下一篇:中文地址分词标注方法