[发明专利]基于语义相关的XML文档关键字检索排序方法有效
申请号: | 201110007177.0 | 申请日: | 2011-01-13 |
公开(公告)号: | CN102081660A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 陈群;王鹏;娄颖;崔海文;李霞;张立军;李战怀 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 顾潮琪 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义相关的XML文档关键字检索排序方法,依次解析XML文档,计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,优化检索时间,对所输入的查询关键字进行单词归根处理,在倒排索引中取出关键字对应的主题节点信息以及相关度信息,对距离关键字最近的主题进行检索,对检索结果进行相关度从高到低排序,对距离关键字次近的主题进行检索,根据结果的Dewey码返回信息片段给用户。本发明针对XML数据独有的结构语义特点,提出了SRank相关度检索模型及方法,可以提高检索结果的准确率。 | ||
搜索关键词: | 基于 语义 相关 xml 文档 关键字 检索 排序 方法 | ||
【主权项】:
1.一种基于语义相关的XML文档关键字检索排序方法,其特征在于包括下述步骤:1)采用有序标签树模型作为XML文档模型,采用深度优先法遍历树模型,解析XML文档,采用Porter Stemming算法对全部单词进行归根处理,确定所有主题节点,使用Dewey编码的方式对主题进行编码;所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点;2)计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,所述的属性节点是以其为根的子树只包含文本内容的节点,计算方法如下:主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示,
属性节点与关键字的语义相关度
其中perc(k,er)表示在以er为根节点的XML树中以La为标签的属性中包含关键字k的比例,freq(La)表示以er为标签的所有XML子树中包含以La为标签的属性的个数,freq(k,La)表示以er为标签的所有XML子树中包含以La为标签的属性的个数,并且该属性包含关键字k;3)将关键字对应的最低主题节点位置信息和步骤2)所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中,并对位置信息中的Dewey码建立B+树索引,通过该索引结构优化检索时间;4)用户输入查询关键字,对所输入的查询关键字采用Porter Stemming算法进行单词归根处理;5)在倒排索引中取出关键字对应的主题节点信息以及相关度信息,关键字的倒排索引中保存包含这个关键字的一系列主题位置,以及关键字与属性节点、属性节点与主题节点的语意相关度,倒排表按照包含这个节点的最低主题节点的Dewey码LED排序,如果一个节点是属性节点,那么它的LED为其父节点的Dewey码;6)对距离关键字最近的主题进行检索,如果一个LED包含了所有的关键字,那么这个LED将被作为一个结果计算其相关度,计算方法如下:
k表示返回属性关键字,sc(k′,La)表示查询条件,k′表示条件值关键字,La表示条件属性关键字;如果一个LED没有包含所有的关键字,那么将该LED的父节点加入到查询队列中;7)对检索结果进行相关度从高到低排序,当检索完所有结果或者达到用户要求的K个结果时算法结束,并输出结果;8)对距离关键字次近的主题进行检索,重复步骤6)和步骤7);9)根据结果的Dewey码返回信息片段给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110007177.0/,转载请声明来源钻瓜专利网。
- 上一篇:摆头切削装置
- 下一篇:可拆卸式多功能一体锅