[发明专利]基于PageRank和时间衰减的科技文献重要度评价方法有效
申请号: | 201610076847.7 | 申请日: | 2016-02-03 |
公开(公告)号: | CN105740452B | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 李玉鑑;张甫 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/2458 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明为基于PageRank和时间衰减的科技文献重要度评价方法,将与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科技文献的链接网络。基本思想:将与科技文献相关的会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根据得到的权威值进行加权处理对科技文献进行权威值排序,从而提高了计算科技文献权威值的可靠性与准确性,可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权威的科技文献。 | ||
搜索关键词: | 基于 pagerank 时间 衰减 科技 文献 重要 评价 方法 | ||
【主权项】:
1.一种基于PageRank和时间衰减的科技文献重要度评价方法,其特征在于:该方法包括以下步骤:步骤一:收集科技文献数据集,包括科技文献的会议/期刊信息、发表年份信息、科技文献信息及作者信息;步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的邻接关系;步骤三:基于PageRank和时间衰减的科技文献链接网络结构的定义:定义基于PageRank和时间衰减的科技文献链接网络结构的有向图为G<V,E>,V是节点即顶点集,该网络中含有的节点有会议/期刊简称“c”、发表年份简称“y”、科技文献简称“p”、作者简称“a”;E是边即弧集,E={<v,w>|v,w∈V},<v,w>表示从v到w的一条边即弧,代表节点之间的权威值传递方向及传递权威值的比例;会议/期刊与发表年份之间的链接关系:<c,y>和<y,c>;发表年份与科技文献之间的链接关系:<y,p>和<p,y>;科技文献与科技文献之间的链接关系:<p,p>;科技文献与作者之间的链接关系:<p,a>和<a,p>;步骤四:连接数据库逐个打开数据库中的信息表,读出基本节点信息,对于读取进来的每个数据元组的数据都需要先进行判断,如果哈希表内已经存在其对应的节点,便直接将该元组的信息整合进节点信息内,而如果不存在对应节点则创立新节点并存入内存中,按步骤三的结构定义构建科技文献链接网络;步骤五:根据构建的科技文献链接网络,将PageRank公式应用到科技文献链接网络的权威值计算中,前半部分表示节点的固有价值,后半部分表示邻接节点传递给它的权威值;d表示衰减因子,0<d<1,取值为0.85,它决定了一个节点固有权威值和通过被转移获得的权威值所占的比重;(1)PR(c)表示会议/期刊的权威值,计算公式如下所示:
PR(y)表示发表年份的权威值,N(y)表示该发表年份对应的会议/期刊的总数,By表示会议/期刊对应的发表年份集,tyc表示发表年份的权威值传递给会议/期刊的转移比例,0<tyc<1,取值为0.3;(2)PR(y)表示发表年份的权威值,计算公式如下所示:
PR(c)表示发表的会议/期刊的权威值,N(c)表示会议/期刊对应的发表年份的总数,PR(p)表示科技文献p的权威值,Bc表示发表年份对应的会议/期刊集,Bp表示发表年份对应的科技文献集,tcy表示会议/期刊的权威值传递给发表年份的转移比例,tpy表示科技文献的权威值传递给发表年份的转移比例,0<tcy,tpy<1,tcy取值为0.3,tpy取值为0.1;(3)PR(p)表示科技文献p的权威值,wvp表示科技文献v将自身的权威值传递给被引文献p时的传递权重,其计算公式如下:
其中Xp是科技文献p被引用时的年龄,Xp=yv‑yp+1,yv是科技文献v的发表年份,yp是科技文献p的发表年份,n是科技文献v所引用的科技文献总数;b是一个平滑因子,用于调整不同年龄的被引用科技文献获得的权重大小,使年龄很小的被引用的科技文献不会获得过多的权值,对于老化快的文献,b取较小的值,对老化慢的科技文献,计算机类科技文献取b=5;科技文献p的权威值PR(p)计算公式如下:
令p、v表示科技文献,PR(v)是科技文献v的权威值,其中科技文献v引用了科技文献p,Ba是科技文献的作者集,By是科技文献的发表年份集,tap表示作者的权威值传递给科技文献的转移比例,typ表示发表年份传递给科技文献的转移比例,0<tap,typ<1,tap取值为0.2,typ取值为0.3;(4)PR(a)表示作者的权威值,计算公式如下所示:
PR(p)表示科技文献p的权威值,N(p)表示科技文献对应的作者的总数,Bp表示作者对应的科技文献集,tpa表示科技文献的权威值传递给作者的转移比例,0<tpa<1,取值为0.2;(5)经过多次迭代之后,科技文献链接网络中节点的PR值趋近于固定值时输出结果,即得到与科技文献相关的会议/期刊、发表年份、科技文献及作者的PR值;步骤六:综上一篇科技文献的权威值由会议/期刊、发表年份、科技文献及作者的权威值加权计算的公式如下:
其中:α+β+χ+δ=1,α、β、χ、δ代表贡献给科技文献u的百分比,0<α,β,χ,δ<1,α、β、χ、δ分别取值为0.4、0.3、0.2、0.1;PR(a)表示作者的权威值,Ba表示科技文献p的作者总数,PR(p)表示科技文献p被引用的参考文献的权威值,Bp表示科技文献p被引用的科技文献总数,PR(c)表示会议/期刊的权威值,PR(y)表示发表年份的权威值;步骤七:结果排序输出,将NR值排序,得到节点即科技文献的排序列表,NR值越大,表示该科技文献越权威。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610076847.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种环保型垃圾焚烧装置
- 下一篇:一种节约香皂洗手装置