蒋馨剑,周艳波
(浙江工业大学 计算机科学与技术学院,杭州 310023)
科技论文作为科研技术人员公开其学术研究成果的主要方式,它可以为相关行业提供重要的理论和应用基础.准确评价学术论文的学术价值和影响力,可以帮助科学技术人员快速发掘高质量、代表科技发展趋势的论文,也可以为各类学术基金选择资助对象、科研机构选拔评聘人才提供参考依据.因此准确评价科技论文的学术价值和影响力十分重要[1].科技论文的评价重点是论文的科学价值以及创新性,而两者都是主观、抽象的概念,除了人工评价,很难准确评价科技论文的价值.
如今科技论文数据的数字化给人们分析数据提供了便利[2],通过数据分析,量化对科技论文的评价,这种方法简单客观,具有较好的实用性.目前,当评估科学论文或科学研究人员的影响时,引用数量[3]是一个简单但广泛使用的度量(例如引用次数、h-index、影响因子IF等).基于引用数量的方法只考虑引用的数量,忽略了引用的质量[4].引用数量偏重于历史数据的累积,具有明显的冷启动问题,较难有效的评估最新发表的科研成果的价值.
科技论文可以根据其引用关系被描述为一个复杂的、自组织的、不断发展的网络,每篇论文都是网络中的一个节点.引文网络中蕴含了大量的信息,可以通过复杂网络分析的方法研究科技论文价值的评价算法.从科技论文的引文网络中可以提取出两个重要的性质:引文网络结构的异质性和时间特性.引文网络是一个有向网络,各个节点在网络中的重要性以及节点间相互作用的强度不同,导致引文网络结构具有异质性.然而大多只考虑到节点异质性的科技论文评价算法往往存在着时间累积效应,旧论文能随着时间累积获得更高的评分[5].虽然时间累积的优势是客观存在的,但是这种时间累积导致的偏见会影响科技论文评价的效果.而现有的考虑到时间信息的科技论文排序算法往往会由于过度的抑制旧论文的评分,导致影响了算法对整体论文排序的性能.
为了解决上述问题,本文从引文网络结构的异质性和时间特性出发,通过引入时间衰减参数,研究论文之间引用时间对论文评分的影响.时间衰减机制削弱了科技论文评价中的时间累积效应,让科技论文的排序结果更加客观有效.不同于其他基于历史累积数据的评价指标,本文致力于在论文发表早期发现它的相对影响力与重要性,帮助科研工作者快速准确地定位关键信息,从而提高科研工作者的效率.
研究者们基于引用数量、引文网络结构和网络演化机制等提出了很多相关的论文学术价值评价方法[6].最直接的学术价值评价方法就是引用数量[7],这也是应用最普遍的方法.针对不同的学科领域引用数量的差异,Radicchi等人提出了一种相对引用指数[8],相对引用指数后来被扩展应用于科研机构、学术杂志等的评价[9].由于很难准确界定一篇论文所属的学科领域,基于共同引文网络的相对引用率可以根据引用结构平衡不学同科领域的引用数差异.由于引文网络存在先动优势(first-mover advantage),某领域较早发表的论文比较晚发表的论文能具有更高的引用数[5].为了消除时间对论文价值判断的影响,Newman提出了一种基于z-score的论文排序方法,发现这种方法可以预测论文的未来引用数[10].
由于论文的引用可能出于多种不同原因[11],比如有些论文被引用是由于其存在一些错误[12],有些引用是自引[13].因此人们做了很多科技论文引用异质性的研究,Zhang等人基于由三类实体组成的异构网络,应用迭代的类 PageRank 方法,通过相互强化,有效的减少了恶意操作的影响[14].Gualdi等人根据论文的相似度构建了引文网络的树形骨架,每篇论文只保留相似度最高的论文对它的引用[15].Clough等人基于因果关系,通过移除一些论文间的引用关系,揭示出论文引文网络的基础骨架结构[16].Zhu等人通过机器学习的方法发现一篇论文的关键参考论文与其在正文中出现的次数相关[4].通过赋予关键参考论文更大的权重,他们提出一种评价科学家的新方法.Valenzuela等人为发掘重要的引用关系,利用了监督分类模型将引用分为4类[17].
基于引用数量的方法本质上只考虑了引文网络中的一节邻居,忽略了引文网络的结构特性.用在网页排序中的PageRank算法利用随机游走过程来引入网络中的高阶邻居信息,是一种考虑网络结构的排序算法.根据网络结构特性,冯勇等人利用PageRank算法进行了微博用户行为的特征分析[18].PageRank可以直接用在论文引用网络中实现论文价值的排序.结合论文引用网络的特点,人们提出了很多PageRank的改进方法[19].然而PageRank有着明显的时间累积效应,因此Walker等人提出了CiteRank方法,在传播过程中给予近期发表的论文更大的初始值[20],它假定研究人员优先从较新的论文开始“浏览”.CiteRank分值代表每篇论文被访问到的概率,代表了科技论文的影响力.Zeng等人提出了仅考虑每篇论文发表后10年内引用的CPRank算法[21],这种方法可以削弱那些旧论文在时间上的累积优势.Mariani等人提出一种基于时间缩放的PageRank方法,也可以消除时间累积效应[22].王斌等人将节点信任度引入到 PageRank 算法中,构建了一种关键节点识别算法TPR[23].Medo等人提出一种方法[24]可以平衡PageRank值在不同时间学术成果上的偏差.
科技论文的引文网络是典型的复杂网络,复杂网络的相关研究可以为科技论文评价算法研究提供思路.复杂网络演化动力学的研究发现,时间效应在网络的动态演化过程中具有重要的作用[25].对在线新闻浏览数据的研究中发现[26]:新闻的浏览量是随时间无标度递减的.Medo等人通过对科技论文引用网络数据的详细分析,发现科技论文的适应度是随时间衰减的[27].在学术影响力预测中引入时间衰减因素可以提高预测的精度[28,29].
本文考虑到时间衰减因素可以提高预测的精度,基于PageRank算法,提出一种基于引文网络时间特性的CGRank(CitationGapbased PageRank)算法.CGRank考虑了引文网络中引用的时间间隔信息,设置引用的权重随着发表时间和引用时间之间的间隔指数衰减.该方法在PageRank的基础上,引入时间衰减机制,可以削弱时间累积效应对算法的影响.本节将在PageRank算法的基础上,详细说明CGRank算法的原理以及计算方法.
3.1 PageRank算法
PageRank算法是在有向网络上随机游走的过程.引文网络是一个有向网络,其中每一个节点都代表一篇论文,而网络中的链接代表论文之间的引文关系.那么如果论文i引用了论文j,在引文网络中就会有一个从论文i到论文j的连边,这个连边是具有方向性的.PageRank算法可以自然地用于引文网络对论文进行排名.
PageRank算法是模拟网络上随机游走的过程.在随机游走到达某个节点时,以概率c随机进入一个该节点的下游节点,以概率1-c跳出当前游走路线,随机跳转到网络中的任意节点开始游走.PageRank值(PR)表示随机游走过程中到达某一个节点的概率.一般在使用PageRank算法进行迭代计算前,为每篇论文附初始相等的PageRank值(PR).
在引文网络中,对于某个论文pi,其对应PR值大小的计算公式如公式(1)所示:
(1)
3.2 CGRank算法
在PageRank中,节点的PR值的主要部分是由上游节点均匀划分的分数之和计算的.此过程不考虑时间信息,并对网络中的每个链接一视同仁.在引文网络中,每个引用的重要性可能不同.论文发表很长一段时间后的引用会受到累积效应的影响,因此论文早期的引用比论文发表很长一段时间后的引用更重要.考虑到引用的异质性和时间特性,CGRank算法对上游论文传递的分数设置了不同的权重.
由于在科技论文的引文网络中时间特性与时间累积效应的相关性呈指数衰减[27],本文在算法模型中对引文网络中的每两个引文之间引入一个时间衰减的权重.参考公式(1),在CGRank算法中,每个节点的值的计算如公式(2)所示:
(2)
Tij=(ti-tj)-α
(3)
α是一个控制衰减速度的衰减参数,越大表示衰减速度越快,ti和tj分别为论文t和论文j的发表时间.当α=0时表示从论文传递到参考论文的分数权重不会随着引用时间间隔而衰减,在这种情况下,CGRank算法与PageRank算法相同.
图1 节点CG值计算示意图Fig.1 Illustration of how to calculate CG value
(4)
不断迭代公式(4),直到达到稳态,即CGn与CGn-1之间的差别足够小,这样就得到最终的CG值.
考虑到网络中存在一些出度为零的节点,最终可能会造成CG值的聚集,因此本文在CGRank算法中加入对出度为零的节点进行特殊处理.在CGRank算法中,出度为零的节点会将其CG值均匀传递给网络中的每一个节点.更新后的CGRank算法如公式(5)所示:
(5)
其中如果论文i引用了论文j则Aij=1,否则Aij=0;δa,b为脉冲函数,当a=b时δa,b=1,否则δa,b=0.
本节通过几组实验,从多个方面证明CGRank算法的有效性.并且通过实验对比不同常用的科技论文排序算法,证明CGRank算法对新旧论文都具有很好的性能.
4.1 实验数据来源与处理
本文的实验使用美国物理学会(APS)提供的数据集(1)http://journals.aps.org/datasets分析不同评价方法的性能.该数据集包含1893年~2017年间《Physical Review Letters》,《Physical Review》和《Reviews of Modern Physics》全集的论文元数据以及论文之间的引用关系.
为了评估不同算法的有效性,实验需要选择一些高价值的论文作为基准集.如果一个学术评价算法可以给高价值的论文较高的评分,则说明这个学术评价算法具有较好的性能.
在本文中使用了两组高价值的论文作为基准,分别是:
1)APS的Milestone Letters(2)http://journals.aps.org/prl/50years/milestones.这些文章是APS编辑们选择的具有重大贡献的论文,包括宣布了重大发现或开创了新的研究领域的论文.进入该数据集是对论文价值的高度认可,APS的Milestone Letters可以作为高价值论文基准集.该集合包含87篇论文,发表年份从1958年~2002年.
2)诺贝尔奖论文集.第2组基准包含67篇论文,这些论文使其中的作者获得了诺贝尔奖.这些论文被诺贝尔奖认可,因此可以被认为是极有价值的论文.诺贝尔奖论文集中论文的发表年份从1946年~2002年.
论文的元数据中包含了文章的标题、作者姓名、摘要、发表期刊号、发表时间、引用关系等信息.其中作者姓名、摘要等信息对于本文现阶段的研究来说起不到作用.因此需要通过数据预处理,从元数据中提炼出有效的数据信息,包括论文的引用关系,和论文的发表时间信息,其中论文的发表时间以月为单位计算.
在清理数据的时候存在着一些论文信息的缺失,以及一些错误的信息.删除了这些无用的数据,最后实验数据集中包含616316篇论文,以及7336550次的引用关系.
表1 各时间段APS数据集论文数量的分布Table 1 Distribution of the number of papers in the APS data set in each time period
表1以20年为一个时间段,显示了APS数据集中各时间段论文的数量.从中可以看出,随着时间的推移,数据集中论文数量呈指数级增长.表2以10年为一个时间段,显示了两个基准集中各年龄段论文的数量.结果显示,基准集中的论文在各个时间段分布较均匀,各时间段论文数量没有明显的差异.如何从指数级增长的论文中,发掘出有限的高价值论文是本文研究的核心问题.
表2 各时间段基准集论文数量的分布Table 2 Distribution of the number of papers in eachbenchmark set in each time period
4.2 CGRank算法的基本性质
验证算法的有效性之前,本文首先利用APS数据集分析CGRank算法的基本性质,包括收敛性和CG值的累积概率分布.由于CGRank算法是通过迭代计算的方式实现的,因此本文需要确定该迭代过程具有收敛性,只有满足收敛性CGRank算法才能称为有效的算法.讨论算法的收敛性时,本文借鉴了PageRank算法中提出的方法,将第n步迭代的数量误差定义为公式(6):
∑i|sn(i)-sn-1(i)|
(6)
其中sn(i)是节点i在n次迭代计算之后的分值,当这个误差值趋于不变时,则可以说明算法是趋于收敛的.PageRank算法的收敛性由该算法的线性代数属性来保证.因此,只要在计算时迭代次数足够多,则PageRank算法将针对任何给定的公差值收敛.对比PageRank,本文分别计算了PageRank和CGRank在不同迭代步数时的误差值,对应结果如图2(a)所示.
图2 误差值与累积概率分布Fig.2 Error value and cumulative probability distribution
实验结果表明,随着迭代步数的增加,CGRank算法的误差值趋向无限小,收敛的速度明显比PageRank要快,因此实验证明了CGRank算法具有收敛的特性,CGRank是一个有效的排序算法.并且在衰减参数α取不同值时,CGRank算法都比PageRank具有更快的收敛性,α越大收敛的速度越快.其次本文通过实验得出的累积概率分布结果,分析不同CG值的节点的分布情况.累积概率的定义为,在不确定的分析中,当需要进一步了解某个情况发生在某一区间的可能性有多大时,计算这个区间所有可能取值的概率之和,即累积概率(Cumulative Probability).因此累积概率可以帮助本文清晰的看到实验结果中各个节点在各个分数区间的概率.本文计算了CGRank算法中不同α衰减参数得到的各个节点CG值的累积概率分布和PageRank算法得出PR值的累积概率分布,对应结果见图2(b).
从实验结果可以看出两种算法得到的分值的概率分布都具有明显的幂律分布特征,说明大部分节点的分值较小,只有少数节点的分值较大,这与网络中普遍存在的无标度现象相一致.衰减参数α值越大,分布的幂律衰减越迅速.表明分值大的节点数随着衰减参数α值的增大而减少.这说明本文提出的CGRank算法,通过引入时间衰减参数抑制了某些论文的分数,衰减参数α越大,抑制效果越明显.这些论文很可能就是由于时间的累积带来优势的论文,由于这些实验数据并不能完全认定改进后的CGRank算法取得了成功,因此本文将进一步验证CGRank算法的有效性.
4.3 CGRank算法的有效性
为了进一步证明CGRank的有效性,本文采用高价值论文的平均排名情况,以及AUC(Area Under Curve)算法评价指标这两种方法.通过两个方面的实验,详细的验证CGRank算法的有效性.
学术论文评价算法的有效性可以通过它识别真正高价值的论文的能力来评估,这是最直观的方法.本文分别使用APS的Milestone Letters和诺贝尔奖论文集作为基准论文集,评估CGRank算法的有效性.如果一种学术价值评价算法能给基准论文集中的论文更靠前的排名,则认为这种方法具有更好的性能.因此,本文使用基准集中论文的平均排名来定量评估所提出的CGRank算法的有效性,平均排名越低,说明算法效果越好.首先需要找到算法中的最优参数,图3显示了不同参数和下,CGRank模型计算得出的两个基准集中论文的平均排名.图3(a)对应APS的Milestone Letters基准集的结果,图3(b)对应诺贝尔奖论文集的结果.
图3 各基准集论文的平均排名与参数c和α的关系Fig.3 Relationship between the average ranking of papers in each benchmark set and the parameters c and α
从图3中可以发现,衰减参数α和阻尼因子c都会影响排序结果的有效性.当α等于0时,CGRank模型与PageRank相同,适当的c值可以最小化基准集中论文的平均排名.对于固定的阻尼因子c,适当的衰减参数α可以降低基准集中论文的平均排名.这表明,衰减参数α的引入,确实可以提高学术评价算法的准确性,论文在发表早期收到的引用比后期收到的引用在评价论文的科学意义方面更重要.如果引用的权重随着引用时间的减少非常缓慢(对应衰减参数α很小的情况),则CGRank的结果将与PageRank相似.然而,如果引用的权重与引用时间衰减的非常快,则论文所收到的引用将被过度抑制,从而导致排名准确性的下降.因此,适度的衰减参数α,可以取得最优的效果,平均排名可以在某些参数α和c下达到最小值.当α=0.14且c=0.96时APS的Milestone Letters基准集的平均排名达到最优.当α=0.14且c=0.99时诺贝尔奖获奖论文的平均排名达到最优.这两组参数相互接近,可以看作是CGRank方法的近似最优参数.
为了验证算法的效果,本文对比了4种相关的学术评价算法,分别是引用计数(CC),PageRank(PR),CiteRank(CR)和CPRank(CP).其中PageRank是只考虑引文网络结构特性的算法,CiteRank和CPRank是同时考虑网络结构特性和时间特性的算法.
表3显示了通过不同方法计算出的基准论文的平均排名,PageRank和CGRank的参数设置为具有最低平均排名的参数.值得注意的是,在两个基准集中,使用CC方法和CR算法计算出的平均排名远远大于其他3种算法,说明这两种方法不能有效的评价学术论文的价值.在其他3种算法中,本文所提出的CGRank算法计算出的平均排名明显小于其他几种算法,说明CGRank算法在评价学术价值方面具有明显的优势,可以较准确的识别高价值论文.
表3 各算法得到的基准论文平均排名Table 3 Average ranking of benchmark papers got by different algorithms
(7)
表4 各算法得到的AUC值Table 4 AUC value got by different algorithms
如果在排序算法给出的序列中,所有在正样本都排在负样本前面,AUC 的值就等于1.随机序列对应的AUC值为0.5.AUC值越接近1,说明排序结果越好.因此AUC值可以判断学术论文评价的排序算法是否能准确识别出高价值的论文.
实验分别将两个基准论文集中的论文做为正样本,其余APS论文作为负样本,计算出上述各个算法AUC指标值,表4展示了对应结果.显然CGRank算法的AUC值比其他排序算法的高,因此从AUC指标的角度来看,CGRank算法的效果优于其他算法.
4.4 CGRank算法的时间特性
由于CGRank算法将引用的时间信息引入到学术评价算法中,在算法有效性的实验中表明,与其他相关方法相比,CGRank算法可以更好的识别出具有较高价值的论文.为了更好地理解CGRank算法的时间特性,了解算法是否削弱论文时间累积效应,本文通过实验进一步分析了不同参数下CGRank算法排序结果的年龄偏差.
图4 排名前1%的论文各年龄组的数量Fig.4 Number of top 1% papers in each age group
实验根据年龄将APS两组数据集中的论文分为10个不同的组,其中每组论文数量相同.对应地,第1组包含最老的10%的论文,第10组包含最新的10%的论文.然后,实验统计出每组中出现在排名结果的前1%中的论文数量.本文选取两组参数,c=0.85和c=0.5.α的取值分别选取,α=0,0.1和0.3.每组中出现在排名结果的前1%中的论文数量如图4所示.图4(a)显示的是参数c=0.85的结果,图4(b)显示的是参数c=0.5的结果.从图中本文可以看出,对于不同的c值,排名在前1%的旧论文数量都随参数α的增大而减少,而排名在前1%的新论文的数量都随参数α的增大而增多.当衰减参数α=0时,CGRank模型与PageRank相同.PageRank有明显的时间累积效应,老论文的排名普遍比较靠前.图4中可以发现,本文提出的CGRank方法可以通过引入衰减参数来削弱这种偏差,降低老论文的排名的同时提升新论文的排名,从而给新发表的论文提供更多机会.
为了研究CGRank算法对不同年代论文的有效性,实验通过准论文集中不同年龄组论文的排名情况,将两个基准论文集中的论文按年代分组.通过计算各组论文的平均排名,本文同样选取两组参数,α的取值分别选取α=0,0.1和0.3.相关结果展示在图5中,图5(a)和图5(c)分别显示的是参数c=0.85和c=0.5的Milestone Letters基准集的结果,图5(b)和图5(d)分别显示的是参数和的诺贝尔奖论文集的结果.从图中可以看出,随着衰减参数α的增大,基准集中旧论文的排名增大而较新发表的论文的排名减小.并且这种趋势与基准集和参数c无关.因此,PageRank(对应α=0)与CGRank相比,可以较好的识别出较老的基准论文,但是其优势随着论文的年龄的下降而迅速减弱,使得CGRank在识别较新的基准论文方面有明显优势.
图5 同年龄组基准论文的平均排名Fig.5 Average ranking of benchmark papers in the same age group
CGRank算法通过引入时间衰减c,可以更好的识别出较新的基准论文,衰减参数α越大,效果越明显,但对老论文的识别率越低.为了在较长的出版时间范围内获得所有基准论文的最佳性能,应在排序算法识别旧论文和新发表论文的性能之间做出折中.因此为了提高CGRank算法整体评价效果,正如本文在上一节中讨论的那样,需要选择一个合适的衰减参数α,能兼顾对新旧论文的效果.
图6 各算法中不同年龄组基准论文的平均排名Fig.6 Average ranking of benchmark papers for different age groups in each algorithm
上述实验证明CGRank算法对旧论文的累积优势具有一定的抑制,接下来本文将各种算法分时间段的平均排名结果进行了比较,以证明CGRank算法在新旧论文上相比其他算法都具有一定的优势.实验将基准论文集中的论文按年代分组后,使用不同的算法计算出每组论文的平均排名,图6中显示对应的结果.图6(a)对应得是APS的Milestone Letters基准集的结果,图6(b)对应的是诺贝尔奖论文集的结果.结果显示,不同算法对不同年龄段的基准论文有不同的效果.引用计数方法对所有年代的论文效果都很差.
对于早期发表的相对较老的论文,本文提出的CGRank方法与PageRank具有相似的性能,且明显优于其他方法.随着论文发表年份的增长,PageRank的相对性能下降,而CGRank,CPRank和CiteRank的相对性能提升.CGRank,CPRank和CiteRank 3种方法在计算论文的评价分值时都考虑了时间信息,给新发表的论文分配更高的分值,因此在评价新发表的论文方面具有更好的性能.但是,CPRank和CiteRank方法低估了早期发表的较老论文的价值,导致它们的整体性能都相对较差.CGRank算法在有效评价新论文的同时,也能保持对较老论文的评价准确度,在识别基准论文方面具有最好的整体效果.
本文从引文网络结构和时间特性着手,基于PageRank算法,提出了一种基于引用时间特性的CGRank学术评价算法.该算法通过引入随时间指数衰减的参数,削弱了科技论文评价中的时间累积效应,让科技论文的价值评价更加客观有效.本文利用APS数据集验证了算法的有效性,同时实验选取了两组高价值的论文作为基准,对各种现有的学术评价算法得出的结果进行对比.实验结果表明,与其他算法相比,CGRank算法具有最好的性能.同时本文还分析了CGRank算法排序结果的年龄偏差,发现CGRank算法通过引入时间衰减机制,可以更好的识别出较新的基准论文,衰减参数α越大,效果越明显.CGRank算法在有效评价新论文的同时,能保持对较老论文的评价准确度.该算法在保证整体评价准确度的基础上,可以在论文发表早期发现它的相对影响力与重要性,帮助科研工作者快速准确地定位关键信息,具有很强的应用价值.
猜你喜欢基准排序论文排序不等式中学生数理化·七年级数学人教版(2022年11期)2022-02-14恐怖排序科普童话·学霸日记(2020年1期)2020-05-08节日排序小天使·一年级语数英综合(2019年2期)2019-01-10明基准讲方法保看齐公民与法治(2016年19期)2016-05-17滑落还是攀爬读者·校园版(2015年7期)2015-05-14下期论文摘要预登浙江大学学报(工学版)(2015年11期)2015-03-01下期论文摘要预登浙江大学学报(工学版)(2015年5期)2015-03-01下期论文摘要预登浙江大学学报(工学版)(2015年1期)2015-03-012013年5—12月最佳论文新闻前哨(2014年1期)2014-03-12巧用基准变换实现装配检测河南科技(2014年15期)2014-02-27