一种中文文献作者重名消歧的方法
【技术领域】
[0001] 本发明属于文献处理领域,尤其涉及一种中文文献作者重名消歧的方法。
【背景技术】
[0002] 目前随着在线文献数据库的不断丰富和发展,越来越多的学者以及相关机构企业 单位开始注重通过文献分析的方法了解领域最新科研动态,掌握同行或竞争对手的科技活 动动向。在此基础上进一步研究发现领域重点及热点问题,把握领域发展概貌,辅助科技决 策与学术评价。然而通过设置特定关键词、作者、期刊方向等进而获取到相关领域文献后, 在进行文献分析时都普遍存在文献作者重名的问题,而仅仅通过相关机构属性,因为在线 文献数据库的标注、作者在文献中机构标注不统一存在作者无法准确定位的问题,同时对 已对应机构的作者重名,以及由于作者自己工作单位更换等原因造成的重名但机构不统一 等问题影响着文献分析结果的质量。
[0003] 针对以上的相关问题,现有技术主要通过以下方法来解决:(1)、有监督的作者消 歧方法:需要先标注好训练样例数据,然后在此基础上创建分类模型,进而判断新出现的作 者与样例中的作者是否属于同一作者。通常此方法消歧效果较好,但在实际使用中人工给 大规模的文献数据进行标注要耗费大量时间,不切实际,实际应用的意义不大。(2)、无监督 的作者消歧方法:通常采用聚类的方法实现。首先利用文献相关的属性特征,计算出所有数 据点的相似度,通过特定的聚类算法得到的聚类团簇就是最后的消歧结果。除了传统的聚 类方法,如层次聚类、谱聚类等外,还有学者应用网络图的方法。无监督的消歧方法因为不 需要训练数据,不需要人工标注,具有较好的实用性。(3)、半监督的作者消歧方法,即以少 量的标注数据指导大量的未标注数据。但无监督方法中一般采用的聚类算法中预先设定的 聚类团数通常是不可预知的,同时现有的方法体系中没有综合考虑多种特征来解决作者消 歧问题。
【发明内容】
[0004] 本发明克服现有中文文献作者消歧方法的不足,提供了一种中文文献作者重名消 歧的方法。该方法和系统可综合利用文献的多种特征,采用特征加权的方法实现重名作者 的消歧。本发明可直接应用中文文献的作者消歧,为通过学术文献分析进而应用在科技评 价、学术研究等方面提供了一种提高学术分析精准化程度的方法。本发明的具体技术方案 为:
[0005] -种中文文献作者重名消歧的方法,包括以下步骤:
[0006] 步骤一:数据规范化处理:将采集到的中文文献数据集PS,其中的每篇文献记作P, 采集P的相关属性并对其做规范化处理,采用向量形式化表达其基础属性集,记作P inf。,Pinf。 -(Ptitle 7Pauthor 7Pauthor en 7Pinstitution 7Pkeyword 7Pabstract 7Ppubtime 7Pjournal);
[0007] 其中:Ptitle为该篇文献的标题;
[0008] PauthOT为该篇文献的作者;
[0009] Pmjthcxrjn为该篇文献的作者英文说明信息;
[00?0] Pinstitution为该篇文献的机构;
[0011] Pke3yTOrd为该篇文献的关键词;
[0012] Pabstract为该篇文献的摘要;
[0013] Ppubtime为该篇文献的发表时间;
[0014] pjciurnai为该篇文献的来源期刊。
[0015] 步骤二:作者初次抽取及形式化表达:根据每篇p作者pauthc^ppauthcir e3n的基础属 性,抽取作者信息,初步建立作者与机构的匹配,采用向量形式化表示每位作者相关信息, T-Sfi^Ainf 〇 j Ainf 〇 - ( Ainstituion,Akeywords,Acollaborators,Apset);问时将有把有重名的作者对象放 入一个列表中,记作Alist,将所有待处理的重名作者集合放入列表AprocessSet中;对每一个 Alisti中的两两之间进行以下步骤三至七:
[0016] 其中:AinstituionS该文献标注的作者的机构;
[0017] Akeywords为该作者的文章关键词表;
[0018] 4。。1131)。加。^为该作者的合作者列表:
[0019] Apset为该作者在PS中的文献对象集合。
[0020] △1^={心4243,~厶15},1^2 2。是本作者姓名重名的个数汰。
[0021 ] AprocessSet= {Alisti,Alist2,Alist3,…,Alistn} ;n是PS 中所有有重名的作者列表的个 数。作者消歧的目标就是使得Apr_ssSe3冲每一个Allstl中的k值尽量等于或逼近真实的作者 个数tk。
[0022] 步骤三:计算重名作者的相关基础属性特征相似度:根据选取作者机构特征、期刊 特征与标题(摘要)特征,用概率论计算重名作者的机构相似度得分Sims C〇reinstl,根据期刊 种类预定义期刊之间的相似度计算期刊相关度得分Simscore胃nal,根据向量空间模型VSN 与余弦计算标题(摘要)相似度得分Simscoretitie&abstm根据预定义的特征权重动态调正 后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围;
[0023] 步骤四:计算重名作者的关键词特征相似度得分:对重名作者,根据其文献在PS中 的文献对象集中文献关键词,抽取作者文献关键词对应表并统计每个关键词的词 频,计算重名作者间的文章关键词相似度并对计算结果归一化;
[0024] 步骤五:计算重名作者的合作者关系特征相似度得分:对重名作者,根据 中文献的合作作者,构建其合作关系表,每个合作作者统计合作次数、合作时间,设定A_ collaborators。计算合作者关系特征相似度得分并对计算结果归一化;
[0025] 步骤六:计算综合相似指数并重名消歧:综合重名作者的基础属性特征相似度得 分,文章关键词特征相似度得分,合作者关系特征相似度得分,对三项得分进行加权计算综 合相似指数;然后根据计算结果与预定义的阈值进行比较,对于超过阈值的两个作者判定 为同一作者;
[0026] 步骤七:作者信息更新:对经过步骤106判断为同一作者的两个作者对象进行融 合,删除其中一个作者对象,然后更新保留作者的各项属性,包括作者机构、文献集合、合作 者集合、关键词集合等。对每一个重名作者列表中的作者重复步骤103到107:直到每一个重 名列表中的作者两两之间的相似度得分均低于融合阈值,程序结束。
[0027] 优化地,所述步骤一中相关属性规范处理前要先对其进行过滤,过滤方法主要采 用过滤掉重要基础属性丢失的文献,包括没有机构信息、没有关键词信息等。
[0028] 优化地,所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级 抽取并标注保存,预定义的三级机构划分如下:一级机构:大学、科研院所、集团等;二级机 构:大学学院、科研院所下级直属单位、集团分公司等;三级机构:大学院系、实验室、具体分 公司部门等。
[0029] 优化地,所述步骤一中的文章发表时间,规范化处理时只保留其发表年份。
[0030] 优化地,所述步骤二中对每个作者对象设定其相关基础属性,对于文章作者所属 机构有标注的文章,设定并标注其机构信息;对于隶属于多家机构的作者,根据标注前后顺 序进行保存,同时保存对应机构的级别;对所属机构无标注的文章,临时设定文章的机构作 为其每个作者的机构。
[0031] 优化地,所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。
[0032] 优化地,所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题 与摘要中的副词、虚词与数词;具体的算法为:设作者Μ,、的标题与摘要经过预处理(分词、 去停用词等)后的词序列分别为Wi(Wil,Wi2,Wi3, . . .Wim)与Wj(Wjl,Wj2,Wj3, . . .Wjn),则Wi与Wj的 相似度计算公式为:
[0033]
[0034] 其中,Wik、Wjk分别表示Wi和Wj第k个特征项的权值。
[0035] -般情况下,根据概率论来计算机构相似度得分SimsC〇reinstl。机构信息越详细 (三级机构)如果两个作者的信息相同,则为同一个人的概率更大。首先比较一级机构,如果 一级机构一样;再分别匹配二级机构与三级机构。定义为如果一级机构相同,则机构相似度 为90,如果到二级机构相同,则相似度得分为95,如果三级机构相同,则为100。都不同相同 则为0。
[0036] -般情况下,期刊相似度SimSC〇re_rnal的得分也通过概率论来计算。,作者发文 相对会集中在领域相关的几个特定的期刊上,因此可以将期刊作为作者消歧的一个基础属 性特征。期刊之间的相似度计算需要预先定义期刊之间的相似度表,由于期刊种类繁多,人 工定义相似度存在较大的工作量和随机误差,因此这里采用从CNKI期刊库里根据期刊所属 学科领域采集相关期刊列表,期刊大类分为"自然科学与工程技术"与"人文社会科学",共 包含8260种期刊,基本覆盖国内中文绝大部分期刊。同时,每个大类下又分为若干二级类 另IJ,如"自然科学与工程技术"类目下包含:基础科学、工程科技I、工程科技II、农业科技、医 药卫生科技、信息科技6个类目。二级类目下又分为三级类目,如"信息科技"分为:电子信息 科学综合、无线电电子学、电信技术、计算机硬件技术等11个三级类别。定义期刊间的相似 度如下:两本期刊如果只同属一样的一级大类则相关度为40;如果所属的二级类目也相同, 则相关度增为60;如果所属的三级类目也相同,则相关度增为80。
[0037]优化地,所述步骤三中基础属性得分为
[0038] SimSC0!T6basic(Ai ? Aj ) - SilllSCOreinsti^a+SimsCore j〇urnal*f^+SiniSCoretitle&abstract* γ,其中,α,β,γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子,可以根据使 用者需求自行设定,随后对计算结果归一化到0-100点区间范围。归一化的计算为 Simscorebasic = Simscorebasic/100。
[0039] 优化地,所述步骤四中文章关键词的算法采用完全匹配法。
[0040] 定义两个重名作者的文章关键词相同数目为key^umUnAj):
[0041] key-num(Ai,Aj)= | Ai