[发明专利]一种基于形式概念分析的数字论文检索方法有效

申请号：	201310377050.7	申请日：	2013-08-27
公开（公告）号：	CN103440308A	公开（公告）日：	2013-12-11
发明（设计）人：	施重阳;牛振东;张春霞;赵向宇	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种数字论文检索方法，特别涉及一种基于形式概念分析的数字论文检索方法，属于数据挖掘领域。本发明提出的论文检索方法，通过“排序隔选”的方式，缩减了构建和搜索概念格的规模和时间，然后将其他被缩减论文附属于被选论文，较大的消除了结果丢失的影响，同时通过概念格的粗糙近似检索机制，解决了论文检索时检索结果过于分散和庞大的问题，同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。
搜索关键词：	一种基于形式概念分析数字论文检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于形式概念分析的数字论文检索方法，其特征在于：其具体操作步骤包括预处理阶段和检索阶段的操作；所述预处理阶段的操作是：对被检索的某一领域的数字论文资源集Z进行预处理，具体为：步骤1：针对领域中的数字论文资源集Z中的全部关键词，依次计算每个关键词在领域中的数字论文资源集Z中的TF-IDF值，并按照TF-IDF值由高到底的顺序对关键词进行排序；然后，将TF-IDF值最高的n个关键词确定为领域中的数字论文资源集的形式背景中的属性，其中，40≤n≤50；步骤2：在步骤1操作的基础上，构建领域中的数字论文资源集Z的形式背景表格，具体为：首先建立一张二维表，用符号F表示；二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文，二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词；然后查看每个关键词在领域中的数字论文资源集Z的每篇论文中是否出现，如出现，则数字论文与关键词确定的表项值为1；否则，数字论文与关键词确定的表项值为0；每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景；经过上述操作得到的二维表F被称为领域中的数字论文资源集Z的形式背景表格；步骤3：在步骤2操作的基础上，统计形式背景表格F中每篇数字论文对应的表项值为1的个数，将其称为该论文所拥有的属性个数；然后在形式背景表格F中，对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序；步骤4：在步骤3操作的基础上，在形式背景表格F中，对于拥有属性个数相同的数字论文，按照关键词在形式背景表格F中出现的顺序进行排序；步骤5：选定一个顺序间隔，用符号s表示，其中，3≤s≤20并且s为整数；然后，从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文；将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格，用符号F_s表示；步骤6：在步骤5操作的基础上，在种子论文形式背景表格F_s中为每一篇种子论文建立2个依附链表，一个称为前置链表，另一个称为后置链表；并将领域中的数字论文资源集Z的形式背景表格F中该种子论文之前的个数字论文加入其前置链表，该种子论文之后的个论文加入其后置链表；在前置链表和后置链表中的论文被称为该种子论文的依附论文；步骤7：在步骤5操作的基础上，使用种子论文形式背景表格F_s构建种子论文概念格，用符号L_s表示；种子论文概念格L_s中的每一个节点均称为一个种子形式概念；所述种子形式概念中包含一个对象集和一个属性集；所述对象集为领域中的数字论文资源集Z的一个论文子集；所述属性集为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集；步骤8：在步骤6和步骤7操作的基础上，使用公式（1）为种子论文概念格L_s中每个种子形式概念中的种子论文确定其重要性权值；具体为：在种子论文概念格L_s中任意选取一个种子形式概念，用符号c_s表示，在种子形式概念c_s中选取一个种子论文，用符号x表示，通过公式（1）计算种子论文x在种子论文概念格c_s中的重要性权值，用符号Context_Score(x,c_s)表示；Context_Score(x,cs)=Σk=1NweightkΣi=1MΣj=1Nweightij*NS---(1)]]>其中，N是种子论文概念格L_s里种子形式概念c_s中属性集包含的属性个数；M是种子论文概念格L_s里种子形式概念c_s中对象集包含的对象个数，即论文数；S是种子论文x拥有的属性个数；这里，weight是种子论文概念格L_s里种子形式概念c_s的属性集中某个属性在领域中的数字论文资源集Z的TF/IDF值；是种子论文概念格L_s里形式概念c_s中种子论文x拥有属性的TF/IDF值总和；是种子论文概念格L_s里形式概念c_s中所有种子论文包含属性的TF/IDF值总和；步骤9：通过公式（2）依次计算种子论文x的依附论文y的相关度，用符号AContext_Score(y,c_s)表示；AContext_Score(y,cs)=Sscore-Sscore*1-SRscore1+SRscore---(2)]]>其中，S_score是种子论文概念格L_s里形式概念c_s中种子论文x在种子论文概念格c_s中的重要性权值；SR_score是依附论文y与种子论文x之间的文本相似度值，该相似度通过公式（3）计算得到；sim(x,y)=Cosine(x,y)=s1·s2||s1||·||s2||---(3)]]>其中，s₁是论文x的属性向量，s₁＝(s_1,1,s_1,2,s_1,3,...,s_1,n′-1,s_1,n′)；s₂是论文y的属性向量，s₂＝(s_2,1,s_2,2,s_2,3,...,s_2,n′-1,s_2,n′)，获取论文x的属性向量s₁的操作步骤为：对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列，然后选取前n′个关键词，5≤n′≤50，分别对应s_1,1,s_1,2,s_1,3,...,s_1,n′-1,s_1,n′；获取论文y的属性向量s₂的方法与获取论文x的属性向量s₁的方法相同；经过步骤1至步骤9的操作，完成预处理阶段的操作；所述检索阶段的操作是在预处理阶段操作的基础上进行的，具体为：步骤10：用户发出一个检索请求，用符号q表示；根据用户的检索请求q，使用公式（4）计算出检索请求q的粗糙集下近似，用符号Q表示，Q为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集；其中，intent()代表获取属性集的操作，是集合的上确界操作运算符；(X,Y)是L_s中的任意一个种子形式概念，X表示对象集，Y表示属性集；步骤11：在种子论文概念格L_s中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合，用符号C_qs表示；具体操作为：步骤a：根据检索请求q的粗糙集下近似Q，求出检索请求q的属性集的粗糙下近似形式概念，用(Q^*,Q)表示，其中Q^*是Q所对应的对象集；步骤b：使用公式（5）依次计算(Q^*,Q)与种子论文概念格L_s中任意一个种子形式概念(P₂,B₂)之间的相似度；Sim((P1,B1),(P2,B2))=ω|(P1∩P2)||(P1∩P2)|+(m-u)+(1-ω)|(B1L∩B2L)||(B1L∩B2L)|+(e-r)---(5)]]>其中，Sim((P₁,B₁),(P₂,B₂))表示种子形式概念(P₁,B₁)与(P₂,B₂)之间的相似度；P₁＝Q^*，B₁＝Q；ω是一个权值参数，0≤ω≤1，用户可以调整它以获得满意的结果；m是对象集P₁和P₂中的非共有对象集的势的最大值，B_1L和B_2L分别是B₁和B₂在种子论文概念格L_s的下近似，根据公式（4）计算获取；e是属性集B_1L和B_2L中的非共有属性集的势的最大值，其中“势”指用来度量集合规模大小的属性，对于有限集合，用集合的元素个数来进行度量；u是对象集P₁和P₂中的非共有对象集之间的信息内容相似度的和的最大值，r是属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度的和的最大值；所述计算对象集P₁和P₂中的非共有对象集之间的信息内容相似度以及属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度可通过公式（6）计算得到：isim(m1,m2)=2logp(m′)logp(m1)+logp(m2)---(6)]]>其中，i_sim(m₁,m₂)为名词m₁和m₂的信息内容相似度；m₁和m₂分别为对象集P₁和P₂中的给定名词，或者是属性集B_1L和B_2L中的给定名词；m'是一个拥有名词m₁和m₂共有的最大信息内容的一个名词，S(m₁,m₂)是名词m₁和m₂共有的上限名词集；f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数；N是S(m₁,m₂)中所有名词在领域中的数字论文资源集Z的所有文本中出现次数的总和；步骤c：根据步骤b中公式（5）得到的相似度，按照从大到小的顺序对种子论文概念格L_s中的所有种子形式概念进行排序，将相似度大于某一阈值σ的种子形式概念放入集合C_qs中，0.2≤σ≤1；步骤12：在步骤11操作的基础上，将检索请求q获取到的形式概念集合C_qs中的种子形式概念中的每篇论文与检索请求q进行相关度计算；任意在形式概念集合C_qs中选定一个形式概念，用符号c_qi表示，从形式概念c_qi所包含的种子论文以及种子论文的依附论文中选择一个论文p_q，论文p_q在形式概念c_qi中与检索请求q的相关度可由公式（7）计算获得；R(p_q,q,c_qi)＝w_context.L_Context_Score(p_q,c_qi)+w_matching.Matching_Score(p_q,q)（7）其中，R(p_q,q,c_qi)论文p_q在形式概念c_qi中与检索请求q的相关度；w_context和w_matching是论文p_q在形式概念c_qi中的重要性权值和论文p_q与检索请求q之间的相似程度的权重，w_context和w_matching的值由人为选取，w_context+w_matching＝1，并且w_matching＞w_context；L_Context_Score(p_q,c_qi)是论文p_q在形式概念c_qi中的重要性的权值，如果p_q是种子论文，则重要性权值由公式（1）计算获得，如果p_q是种子论文的附属论文，则重要性权值由公式（2）计算获得；Matching_Score(p_q,q)是论文p_q与检索请求q之间的相似程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作；步骤13：根据步骤12得到的检索请求q获取到的形式概念集合C_qs中的种子形式概念c_qi中的每篇论文与检索请求q进行相关度，按照从大到小的顺序对论文进行排序；将排序结果作为检索结果的一部分向用户展示；步骤14：重复步骤12至步骤13的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12至步骤13的操作，并将结果展示给用户；步骤15：在步骤12操作的基础上，通过公式（8）计算论文p_q针对检索请求q的在形式概念集合C_qs中的全局相关度，用符号R(p_q,q)表示；R(pq,q)=Σl=1np(wPaperRelevancy·R1(Pq,q,cql)+wcontext·R2(cql,q))np---(8)]]>其中，n_p是在形式概念集合C_qs中包含论文p_q的形式概念的个数；R₁(p_q,q,c_ql)是在形式概念c_ql中检索请求q与论文p_q的相关程度，可由公式（7）计算获得；R₂(c_ql,q)是形式概念c_ql与检索请求q的相关程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作；w_{PaperRelevancy}和w_Wcontext是R₁和R₂各自的权重，w_{PaperRelevancy}和w_Wcontext的值由人为设定，w_{PaperRelevancy}+w_context＝1，并且w_{PaperRelevancy}＞w_Wcontext；步骤16：重复步骤12和步骤15的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12和步骤15的操作；步骤17：在步骤16操作的基础上，对形式概念集合C_qs中的所有论文按照全局相关度由高到低进行排序，得到一个统一的检索结果列表，将这个检索结果列表作为检索结果的另外一部分向用户展示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310377050.7/，转载请声明来源钻瓜专利网。

上一篇：一种水泥基复合材料离子扩散模型的构建方法
下一篇：面向云资源调度的热点移除方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于形式概念分析的数字论文检索方法有效

专利文献下载