[发明专利]一种基于形式概念分析的数字论文检索方法有效
申请号: | 201310377050.7 | 申请日: | 2013-08-27 |
公开(公告)号: | CN103440308A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 施重阳;牛振东;张春霞;赵向宇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。 | ||
搜索关键词: | 一种 基于 形式 概念 分析 数字 论文 检索 方法 | ||
【主权项】:
1.一种基于形式概念分析的数字论文检索方法,其特征在于:其具体操作步骤包括预处理阶段和检索阶段的操作;所述预处理阶段的操作是:对被检索的某一领域
的数字论文资源集Z进行预处理,具体为:步骤1:针对领域
中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域
中的数字论文资源集Z中的TF-IDF值,并按照TF-IDF值由高到底的顺序对关键词进行排序;然后,将TF-IDF值最高的n个关键词确定为领域
中的数字论文资源集的形式背景中的属性,其中,40≤n≤50;步骤2:在步骤1操作的基础上,构建领域
中的数字论文资源集Z的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文,二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词;然后查看每个关键词在领域
中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0;每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景;经过上述操作得到的二维表F被称为领域
中的数字论文资源集Z的形式背景表格;步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序;步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序;步骤5:选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数;然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文;将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示;步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域
中的数字论文资源集Z的形式背景表格F中该种子论文之前的
个数字论文加入其前置链表,该种子论文之后的
个论文加入其后置链表;在前置链表和后置链表中的论文被称为该种子论文的依附论文;步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格,用符号Ls表示;种子论文概念格Ls中的每一个节点均称为一个种子形式概念;所述种子形式概念中包含一个对象集和一个属性集;所述对象集为领域
中的数字论文资源集Z的一个论文子集;所述属性集为领域
中的数字论文资源集Z的形式背景表格F中属性集合的子集;步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念格Ls中每个种子形式概念中的种子论文确定其重要性权值;具体为:在种子论文概念格Ls中任意选取一个种子形式概念,用符号cs表示,在种子形式概念cs中选取一个种子论文,用符号x表示,通过公式(1)计算种子论文x在种子论文概念格cs中的重要性权值,用符号Context_Score(x,cs)表示;Context _ Score ( x , c s ) = Σ k = 1 N weight k Σ i = 1 M Σ j = 1 N weight ij * N S - - - ( 1 ) ]]> 其中,N是种子论文概念格Ls里种子形式概念cs中属性集包含的属性个数;M是种子论文概念格Ls里种子形式概念cs中对象集包含的对象个数,即论文数;S是种子论文x拥有的属性个数;这里,weight是种子论文概念格Ls里种子形式概念cs的属性集中某个属性在领域
中的数字论文资源集Z的TF/IDF值;
是种子论文概念格Ls里形式概念cs中种子论文x拥有属性的TF/IDF值总和;
是种子论文概念格Ls里形式概念cs中所有种子论文包含属性的TF/IDF值总和;步骤9:通过公式(2)依次计算种子论文x的依附论文y的相关度,用符号AContext_Score(y,cs)表示;AContext _ Score ( y , c s ) = S score - S score * 1 - SR score 1 + SR score - - - ( 2 ) ]]> 其中,Sscore是种子论文概念格Ls里形式概念cs中种子论文x在种子论文概念格cs中的重要性权值;SRscore是依附论文y与种子论文x之间的文本相似度值,该相似度通过公式(3)计算得到;sim ( x , y ) = Co sin e ( x , y ) = s 1 · s 2 | | s 1 | | · | | s 2 | | - - - ( 3 ) ]]> 其中,s1是论文x的属性向量,s1=(s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′);s2是论文y的属性向量,s2=(s2,1,s2,2,s2,3,...,s2,n′-1,s2,n′),获取论文x的属性向量s1的操作步骤为:对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列,然后选取前n′个关键词,5≤n′≤50,分别对应s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′;获取论文y的属性向量s2的方法与获取论文x的属性向量s1的方法相同;经过步骤1至步骤9的操作,完成预处理阶段的操作;所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:步骤10:用户发出一个检索请求,用符号q表示;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似,用符号Q表示,Q为领域
中的数字论文资源集Z的形式背景表格F中属性集合的子集;
其中,intent()代表获取属性集的操作,
是集合的上确界操作运算符;(X,Y)是Ls中的任意一个种子形式概念,X表示对象集,Y表示属性集;步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合,用符号Cqs表示;具体操作为:步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念,用(Q*,Q)表示,其中Q*是Q所对应的对象集;步骤b:使用公式(5)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(P2,B2)之间的相似度;Sim ( ( P 1 , B 1 ) , ( P 2 , B 2 ) ) = ω | ( P 1 ∩ P 2 ) | | ( P 1 ∩ P 2 ) | + ( m - u ) + ( 1 - ω ) | ( B 1 L ∩ B 2 L ) | | ( B 1 L ∩ B 2 L ) | + ( e - r ) - - - ( 5 ) ]]> 其中,Sim((P1,B1),(P2,B2))表示种子形式概念(P1,B1)与(P2,B2)之间的相似度;P1=Q*,B1=Q;ω是一个权值参数,0≤ω≤1,用户可以调整它以获得满意的结果;m是对象集P1和P2中的非共有对象集的势的最大值,B1L和B2L分别是B1和B2在种子论文概念格Ls的下近似,根据公式(4)计算获取;e是属性集B1L和B2L中的非共有属性集的势的最大值,其中“势”指用来度量集合规模大小的属性,对于有限集合,用集合的元素个数来进行度量;u是对象集P1和P2中的非共有对象集之间的信息内容相似度的和的最大值,r是属性集B1L和B2L中的非共有属性集之间的信息内容相似度的和的最大值;所述计算对象集P1和P2中的非共有对象集之间的信息内容相似度以及属性集B1L和B2L中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到:i sim ( m 1 , m 2 ) = 2 log p ( m ′ ) log p ( m 1 ) + log p ( m 2 ) - - - ( 6 ) ]]> 其中,isim(m1,m2)为名词m1和m2的信息内容相似度;m1和m2分别为对象集P1和P2中的给定名词,或者是属性集B1L和B2L中的给定名词;m'是一个拥有名词m1和m2共有的最大信息内容的一个名词,
S(m1,m2)是名词m1和m2共有的上限名词集;
f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数;N是S(m1,m2)中所有名词在领域
中的数字论文资源集Z的所有文本中出现次数的总和;步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于某一阈值σ的种子形式概念放入集合Cqs中,0.2≤σ≤1;步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算;任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得;R(pq,q,cqi)=wcontext.L_Context_Score(pq,cqi)+wmatching.Matching_Score(pq,q)(7)其中,R(pq,q,cqi)论文pq在形式概念cqi中与检索请求q的相关度;wcontext和wmatching是论文pq在形式概念cqi中的重要性权值和论文pq与检索请求q之间的相似程度的权重,wcontext和wmatching的值由人为选取,wcontext+wmatching=1,并且wmatching>wcontext;L_Context_Score(pq,cqi)是论文pq在形式概念cqi中的重要性的权值,如果pq是种子论文,则重要性权值由公式(1)计算获得,如果pq是种子论文的附属论文,则重要性权值由公式(2)计算获得;Matching_Score(pq,q)是论文pq与检索请求q之间的相似程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示;步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户;步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度,用符号R(pq,q)表示;R ( p q , q ) = Σ l = 1 n p ( w PaperRelevancy · R 1 ( P q , q , c ql ) + w context · R 2 ( c ql , q ) ) n p - - - ( 8 ) ]]> 其中,np是在形式概念集合Cqs中包含论文pq的形式概念的个数;R1(pq,q,cql)是在形式概念cql中检索请求q与论文pq的相关程度,可由公式(7)计算获得;R2(cql,q)是形式概念cql与检索请求q的相关程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;wPaperRelevancy和wWcontext是R1和R2各自的权重,wPaperRelevancy和wWcontext的值由人为设定,wPaperRelevancy+wcontext=1,并且wPaperRelevancy>wWcontext;步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12和步骤15的操作;步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310377050.7/,转载请声明来源钻瓜专利网。