计算机实现的信息处理方法及装置的制造方法

文档序号:10655219阅读:653来源:国知局
计算机实现的信息处理方法及装置的制造方法
【专利摘要】一种计算机实现的信息处理方法和装置。方法包括:获取多个训练评估对象的数据,构建知识图,创建基于知识图的图数据库,知识图的节点为评估对象或与评估对象具有关联关系的关联对象,知识图的边描述节点之间的关系且具有相应权重;基于训练评估对象之间的距离,计算训练评估对象的特征向量,距离至少基于训练评估对象之间的路径权重,特征向量针对训练评估对象指示在一定距离内不同维度的图数据库中其他训练评估对象的数量;将特征向量和多个训练评估对象的评估类别作为样本集合,构建评估模型;响应于收到新评估对象的数据,计算新评估对象的特征向量和评估指标;基于评估指标,由计算机根据判别条件完成关于新评估对象的审核操作。
【专利说明】
计算机实现的信息处理方法及装置
技术领域
[0001] 本公开设及计算机信息处理领域,尤其设及计算机实现的对象可信度评估方法和 装置。
【背景技术】
[0002] 目前,在需要对人员信息进行审核和可信度评估的应用环境中,例如在社会安全 领域、金融安全领域等,通常通过针对个人信息、身份关联信息、消费交易信息等进行个人 画像,建立基于统计学的机器学习数学模型,进而进行可信度分析。
[0003] 随着因特网的出现和社交网络的兴起,当今针对个人正创造出比W往在我们的社 会历史中任何时候创造的信息都要多的信息,数据之间具有非常复杂和千丝万缕的联系。 然而,在利用机器学习的数据模型时,人们缺乏对个人数据的深入挖掘,同时对数据的应用 仍然很有限,从而影响了对个人或个人行为的可信度评估的准确性。

【发明内容】

[0004] 为了解决上面所提出的问题,本公开提供一种深度利用个人相关数据W通过数学 模型进行信息处理的计算机实现的技术方案。
[0005] 根据本公开的第一方面,提供一种计算机实现的信息处理方法,方法包括:获取多 个训练评估对象的相关数据,构建知识图,并且创建基于知识图的图数据库,其中知识图的 每个节点为评估对象或者与评估对象具有关联关系的关联对象,知识图的边描述知识图的 节点之间的关系并且具有相应权重;基于训练评估对象之间的距离,计算每个训练评估对 象的特征向量,其中距离至少基于训练评估对象之间的路径权重,特征向量针对每个训练 评估对象指示在一定的距离内不同维度的图数据库中其他训练评估对象的数量;将特征向 量和多个训练评估对象的评估类别作为样本集合,W构建评估模型;响应于收到新的评估 对象的相关数据,计算新的评估对象的特征向量;基于评估模型和新的评估对象的特征向 量,计算新的评估对象的评估指标;W及基于新的评估对象的评估指标,由计算机根据判别 条件完成关于新的评估对象的审核操作。
[0006] 根据本公开的实施例,其中训练评估对象之间的距离根据下式计算得到:
[0007]
[000引其中Xi、x汾别表示第i训练评估对象和第j训练评估对象,D(Xi,Xj)表示Xi和Xj之间的距 离,hx抑表示&和&路粗上的节点,L表示&和X撕之间路径的数目卢巧巧表示Xi和X撕路径1 上边的权重;I! (/I邸呼雌巧)为路径1的影响因子,
表示影响因子最大的路径所经过的节点数目。
[0009]根据本公开的实施例,其中基于训练评估对象之间的距离,计算每个训练评估对 象的特征向量包括:针对训练评估对象的特定属性的每个属性值,统计距离D(xi,xj)中小于 特定距离阔值的路径数量;W及基于统计的路径数量,得到训练评估对象的特征向量。
[0010] 根据本公开的实施例,其中响应于收到新的评估对象的相关数据,计算新的评估 对象的特征向量包括:将新的评估对象的相关数据投射到知识图中;基于新的评估对象与 知识图中的其他评估对象之间的路径权重,计算新的评估对象与其他评估对象之间的距 离;W及基于新的评估对象与其他评估对象之间的距离,计算新的评估对象的特征向量。
[0011] 根据本公开的实施例,其中评估模型包括W下中的一项或多项:决策树、逻辑回归 模型、随机森林模型。
[001^ 根据本公开的实施例,还包括更新图数据库和评估模型。
[0013] 根据本公开的实施例,还包括:将多个新的评估对象和相应的评估类别更新到知 识图中;基于更新后的知识图和图数据库,生成新的评估模型;确定新的评估模型的准确 度;W及基于新的评估模型的准确度,更新评估模型。
[0014] 根据本公开的实施例,其中图的节点中的与评估对象具有关联关系的关联对象包 括W下项中的一项或多项:评估对象相关联的个人数据对象;评估对象相关联的征信数据 对象;评估对象相关联的社会关系数据对象;评估对象相关联的社交网络数据对象;评估对 象相关联的通信数据对象。
[0015] 根据本公开的实施例,其中图中的边的权重至少基于W下项中的一项或多项来确 定:边所关联的节点的关系类型;边所关联的节点之间的关联程度。
[0016] 根据本公开的第二方面,提供一种计算机实现的信息处理装置,装置包括:图数据 库创建装置,被配置为获取多个训练评估对象的相关数据,构建知识图,并且创建基于知识 图的图数据库,其中知识图的每个节点为评估对象或者与评估对象具有关联关系的关联对 象,知识图的边描述知识图的节点之间的关系并且具有相应权重;第一计算装置,被配置为 基于训练评估对象之间的距离,计算每个训练评估对象的特征向量,其中距离至少基于训 练评估对象之间的路径权重,特征向量针对每个训练评估对象指示在一定的距离内不同维 度的图数据库中其他训练评估对象的数量;评估模型构建装置,被配置为将特征向量和多 个训练评估对象的评估类别作为样本集合,W构建评估模型;第二计算装置,被配置为响应 于收到新的评估对象的相关数据,计算新的评估对象的特征向量;W及基于评估模型和新 的评估对象的特征向量,计算新的评估对象的评估指标;W及审核处理装置,被配置为基于 新的评估对象的评估指标,由计算机根据判别条件完成关于新的评估对象的审核操作。
[0017] 根据本公开的实施例,其中训练评估对象之间的距离根据下式计算得到:
[001 引
[0019] 其中xi、x汾别表示第i训练评估对象和斯训练评估对象,D(xi术读示化和巧之间的距 离,巧表示Xi和Xj路径让的节点,L表示Xi和Xj的之间路径的数目,辟::i巧表示Xi和Xj的路径1 上边的权重;为路径1的影响因子:
表示影响因子最大的路径所经过的节点数目。
[0020] 根据本公开的实施例,第一计算装置还被配置为:针对训练评估对象的特定属性 的每个属性值,统计距离D(xi,xj)中小于特定距离阔值的路径数量;W及基于统计的路径数 量,得到训练评估对象的特征向量。
[0021] 根据本公开的实施例,第二计算装置还被配置为:将新的评估对象的相关数据投 射到知识图中;基于新的评估对象与知识图中的其他评估对象之间的路径权重,计算新的 评估对象与其他评估对象之间的距离;W及基于新的评估对象与其他评估对象之间的距 离,计算新的评估对象的特征向量。
[0022] 根据本公开的实施例,其中评估模型包括W下中的一项或多项:决策树、逻辑回归 模型、随机森林模型。
[0023] 根据本公开的实施例,还包括更新装置,被配置为更新图数据库和评估模型。
[0024] 根据本公开的实施例,更新装置还被配置为:将多个新的评估对象和相应的评估 类别更新到知识图中;基于更新后的知识图和图数据库,生成新的评估模型;确定新的评估 模型的准确度;W及基于新的评估模型的准确度,更新评估模型。
[0025] 根据本公开的实施例,其中图的节点中的与评估对象具有关联关系的关联对象包 括W下项中的一项或多项:评估对象相关联的个人数据对象;评估对象相关联的征信数据 对象;评估对象相关联的社会关系数据对象;评估对象相关联的社交网络数据对象;评估对 象相关联的通信数据对象。
[0026] 根据本公开的实施例,其中图中的边的权重至少基于W下项中的一项或多项来确 定:边所关联的节点的关系类型;边所关联的节点之间的关联程度。
[0027] 本公开通过具有福射特征的知识图来建立评估模型,将数据由一维的特征向量展 开为基于图关系的模型,并将数据转化为机器可理解数据形式,利用计算机实现数据信息 的处理,充分利用了数据挖掘和机器学习的优势。
【附图说明】
[0028] 结合附图并参考W下详细说明,本公开的各实施例的特征、优点及其他方面将变 得更加明显,现将仅通过示例而非限制性的方式示出了本公开的若干实施例,在附图中:
[0029] 图1示出了根据本公开的实施例的示意性信息处理框图;
[0030] 图2示出了根据本公开的实施例的方法流程图;
[0031] 图3示出了根据本公开的实施例的示例知识图;W及
[0032] 图4示出了根据本公开的实施例的装置示意图。
【具体实施方式】
[0033] W下参考附图详细描述本公开的各个示例性实施例。附图中的流程图和框图示出 了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意, 流程图或框图中的每个方框可W代表一个模块、程序段、或代码的一部分,所述模块、程序 段、或代码的一部分可W包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执 行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可W按照不同于附 图中所标注的顺序发生。例如,两个接连地表示的方框实际上可W基本并行地执行,或者它 们有时也可W按照相反的顺序执行,运取决于所设及的功能。同样应当注意的是,流程图 和/或框图中的每个方框、W及流程图和/或框图中的方框的组合,可W使用执行规定的功 能或操作的专用的基于硬件的系统来实现,或者可W使用专用硬件与计算机指令的组合来 实现。
[0034] 本文所使用的术语"包括"、"包含"及类似术语应该被理解为是开放性的术语,即 "包括/包含但不限于",表示还可W包括其他内容。术语"基于"是"至少部分地基于"。术语 "一个实施例"表示"至少一个实施例";术语"另一实施例"表示"至少一个另外的实施例"。
[0035] 如前所述,本公开旨在深入挖掘基于关联关系的信息数据,利用信息的福射关系 特征,进而使用计算机实现基于统计模型的对个人或个人行为的可信度评估。计算机实现 的统计模型算法(即机器学习算法)是一类从数据中自动分析获得规律,并利用规律对未知 数据进行预测的算法。在本文中,术语"评估模型"为基于统计的数学模型,其可被用于对评 估对象进行评估。术语"评估对象"为根据各种不同应用场景而确定的需要进行评估的对 象,例如个人或个人行为,在本公开的一个实施例中,评估对象可W为需要进行审核的借款 或贷款,在另一实施例中,评估对象可W是需要审核的个人信息。术语"特征向量"表示根据 从样本(例如,评估对象)所提取的特征信息而构建的多维向量,向量的维度等于特征信息 类型的数目。
[0036] 可W理解,下文给出运些示例性实施例仅是为了使本领域技术人员能够更好地理 解并实现本公开的实施例,而并非W任何方式限制本公开的范围。
[0037] 图1示出了根据本公开的一个实施例的示意性信息处理框图100。应该指出,本公 开提出的信息处理解决方案并不限定具体的应用场景,本领域技术人员可W理解,在需要 对客户或用户信息或者客户或用户行为信息进行分析处理的适宜环境中,本公开的实施例 均可得到应用。
[0038] 在图1中示出了通过充分利用数据的关联性而进行的数据处理和评估模型建立的 过程。图1中示出了数据源或数据设及的方面:用户数据101、互联网公开数据102、历史数据 103,运些数据可W存储在一个或多个数据库中。通常,用户数据101为用户自身提供的数 据,例如年龄、教育程度、工作状况、家庭背景、通信数据等等。互联网公开数据102为在社交 网络中所公开、任何人均可查看的数据,例如社交网络数据、网页数据等等。历史数据103为 应用本方案的机构或系统所已知的有关历史数据,例如在金融机构的场景中,可W是消费 数据、银行数据、征信数据等等,而在捜索应用的场景中,可W是用户的历史捜索数据等等。 图1仅示意了数据可能设及的方面,可W理解,能够充分利用数据的关联性的潜在数据方面 都在本公开的范围之内。
[0039] 数据抽取过程104可W例如采集各种数据源,数据源可W包括如用户数据101、互 联网公开数据102、历史数据103等,抽取其中可用的数据,W形成基于图关系的图数据库 105,并进而生成训练数据107。因此,在数据抽取过程104中,对训练对象及其相互关联的关 联对象和相关数据进行深入发现和挖掘。运些训练对象W及相互关联的关联对象形成图关 系的节点,每个节点由一个全局唯一的ID来标识和索引,同时节点具有若干个属性,W描述 节点的特性。例如,在节点为个人时,其属性可W为姓名、身份证号、家庭地址等等;在节点 为待售对象时,其属性可W为售卖类型、售卖金额等等;在节点为电话时,其属性可W为电 话类型、电话号码、所属地等等。而运些节点之间的关系由图的边进行描述,例如是is-a关 系,表示一个节点是另一个节点的一种,或是has-a关系,表示一个节点具有另一个节点等 等,运样的关系都是用来描述实体之间的关联关系。同时,运种关系需要转化为机器可W理 解的表示,在本公开的一个实施例中采用边的权重来表征关联程度。
[0040] 图数据库105中存储基于图关系的各种数据,例如,如上所述的节点、节点ID、属 性、边、边的关系、权重等等。信息处理系统可W利用计算机对图数据库中的数据进行各种 处理,例如基于图关系的遍历、统计、查找、更新等。
[0041] 关系分析和提取过程106对图数据库105中的数据进行分析、提取和处理,W形成 训练数据107。根据所需要获得的训练数据,基于图数据库中训练对象的各种关联关系,提 取出训练对象的特征向量,并对训练对象进行标签,作为样本数据输入到评估模型训练过 程108,最终得到评估模型109。
[0042] 在评估模型训练过程108中,将选取的已经标签的样本分为训练集和测试集,例如 可W将样本的75%作为训练集,样本的25%作为测试集。将训练集的样本数据输入统计模 型中,构建统计模型,例如统计模型为GBDT(Gradient Boost Decision Tree)模型、逻辑回 归模型等等,并在此过程中不断迭代样本,直到训练结束。之后将测试样本输入构建的统计 模型,进行测试验证并可W调整统计模型的参数,最终完成评估模型训练过程108,得到评 估模型109。当有新的评估对象需要进行评估时,经过对该新评估对象的数据分析和提取, 将其特征向量输入评估模型109,W计算得到其评估指标。
[0043] 下面将结合具体实施例对本公开的技术方案进行详细描述。图2示出了根据本公 开的一个实施例的方法200的流程图。在步骤202,获取多个训练评估对象的相关数据,构建 知识图,并且创建基于知识图的图数据库,其中知识图的每个节点为评估对象或者与评估 对象具有关联关系的关联对象,知识图的边描述知识图的节点之间的关系并且具有相应权 重。
[0044] 为了便于理解的目的,在一个具体实施例中,例如针对个人信贷场景,节点定义示 意如下表所示。
[0045] 表 1
[0046]
[0047]
[0048] 如表1所示,在运样的场景中,节点可W为评估对象(例如贷款)或者评估对象相关 联的关联对象(例如银行卡、贷款销售员、电子邮件等等),另外,从表1可见,每个节点具有 相应的若干个属性。基于若干个评估对象及其相关联的关联对象,构建知识图,在运样的场 景中,图的边例如可W如表2所示。
[0049] 表 2
[(K)加]
[0化1 ]
[0052] 如表2所示,基于边所描述的节点之间的关系W及关联节点的类型,可W为各边分 配相应的权重值,该权重值表征了节点之间的关联程度,或者在不同应用场景中,表征对于 需要评估的对象的影响程度,其是定量表示。举例来说,若需要评估的对象之间通过夫妻、 同事等关系连接,那么运种联系通常可W具有较高的互相影响力,可W被分配一个较高的 权重值;若通过例如审批行为连接,即一个审批者审批了两个对象,运种联系通常具有较低 的互相影响力,可W被分配一个较低的权重值。
[0053] 根据从数据源提取的节点和边的相关数据,可W构建知识图模型。在一个具体实 施例中,构建了如图3所示的知识图示意300。如图3所示,各节点之间具有复杂的关联关系, 例如,对于节点301(贷款2),其与节点302(借款人2)、节点303(贷款销售员1)具有直接关联 关系,同时与节点302 (借款人2)关联的节点305 (借款人1 )、节点306 (父亲)、节点307 (手 机)、节点308(电子邮件)、节点309(公司)等具有较近的间接关联关系,与节点304(贷款3)、 节点306(父亲)拥有的电话、在公司工作的其他人等等具有较远的间接关联关系。事实上, 在不同应用场景中,关注的关系方面各不相同,可W构建适合应用场景的、例如图3所示意 的知识图。
[0054] 知识图模型存储于图数据库105中,可W W不同的形式例如矩阵、邻接表、链表等 进行存储,方便于图的遍历和捜索等操作。可W理解,本公开中的知识图(或图数据库)的建 立,提供了一种利用数据之间关系福射特性的解决方案,W更好地应用于评估或预测的场 景。
[0055] 返回到图2所示的方法200,在建立了图数据库105之后,在步骤204,基于训练评估 对象之间的距离,计算每个训练评估对象的特征向量,其中该距离至少基于训练评估对象 之间的路径权重,特征向量针对每个训练评估对象指示在一定的距离内不同维度的图数据 库中其他训练评估对象的数量。
[0056] 为了便于理解,仍然W图3为例,节点302(借款人2)和节点305(借款人1)分别申请 了 W节点301(贷款2)和节点310(贷款1)表示的贷款,从运个示例图可W看出,节点310处于 坏账状态,而节点302(借款人2)和节点305(借款人1)具有距离较近、权重较高的关联特征, 在运种情况下,节点301(贷款2)有极大可能概率具有极高不可信度。为了能够达到区分和 量化评估的目标,在本公开的一个实施例中,通过计算评估对象之间的"距离",将评估对象 的特征向量提取为在一定的距离内不同维度的图数据库中其他评估对象的数量,进而能够 区分评估对象的评估类别。因此,该距离能够表征与关联影响大、存在不可信(或者可信)因 素的对象之间"近"的距离的运些对象,应该分到显著的评估类别。
[0057] 在本公开的一个具体实施例中,两个评估对象心刊之间的距离D(xi,xj)可W根据 下式计算得到:
[0化引
(式1 j
[0059] 其中by巧表示Xi和Xj路径让的节点,L表示Xi和Xj的之间路径的数目,邸林徒示化和Xj 的路径1上边的权重;I:: 为路径1的影响因子
表示影响因子最大的路径所经过的节点数目。
[0060] 也即,根据式(1)得到评估对象两两之间的距离,该距离为评估对象之间的所有路 径中影响因子最大的路径所经过的节点数目。基于该距离,对于每个评估对象,可W根据需 要评估的属性,选择合适的福射程度,来得到用于数学模型的特征向量。
[0061] 在本公开的一个具体实施例中,例如在个人信贷应用场景中,为了对评估对象(例 如贷款)提取特征向量,可W根据如表1所示的节点和节点属性示例,将评估对象(例如贷 款)的属性(例如贷款状态)的属性值(例如各种状态)做如表3的定义,如表3所示,评估对象 的特定属性有6个属性值。
[0062] 表 3 「00631
[0064]~因此,可W针对评估对象XI,统计距
离小于一定距离阔值Dis的数量作为特征向 量,即
[00化]Cntj=I,2,XjKDis)(式 2)
[0066] 其中N表示评估对象的特定属性的N个属性值。根据式(2)得到评估对象Xi的N维特 征向量,
[0067]
[0068] 特征向量针对每个评估对象指示在一定的距离内不同维度的图数据库中其他 评估对象的数量。
[0069] 当在统计模型的训练过程中时,可W按照上述方式计算训练评估对象之间的距离 W及得到训练评估对象的特征向量。在评估模型创建之后,对于新的评估对象,也可W按照 上述方式计算新的评估对象与其他评估对象之间的距离,并获得新的评估对象的特征向 量。
[0070] 可W理解,W上所描述的距离的计算和特征向量的获得,在具体计算机实现中,可 W采用基于图的深度优先遍历和/或广度优先遍历,计算符合福射条件的节点数目。
[0071] 再次回到图2。接下来,方法200进行到步骤206,将特征向量和多个训练评估对象 的评估类别作为样本集合,W构建评估模型。如W上针对图1的描述,评估模型可W根据应 用场景选择适当的数学模型,在本公开的一个具体实施例中,可W采用GBDT模型。G抓T模型 (或GBDT算法)每一次的计算是为了减少上一次计算的残差,而为了消除残差,可W在残差 减少的梯度方向上建立一个新的模型。也就是说,在GBDT算法中,每个新的模型的建立是为 了使得之前模型的残差往梯度方向减少。
[0072]例如,对于GBDT模型,针对评估对象Xi,其N种状态概率分布为状态概率分布为Fi (X),F2(x),…,Fn(X),结果为属于类别k的概率为Pk(X) DLogistic变换如下:
[007;3]
(式 4 )
[0074] 对于Logistic变换后的结果,损失函数为:
[0075]
(式 5 )
[0076] 其中,yk为输入的样本数据的估计值,当一个样本Xi属于类别k时,yk=l,否则yk = 0。
[0077] 将式(4)带入损失函数式(5),并且对其求导,可W得到损失函数的梯度,
[007引
(式 6)
[0079] 对于一个样本,最理想的梯度是越接近0的梯度。由W上公式进行训练得出评估模 型。具体的训练过程如W上结合图1的描述,将选取的已经标签的样本分为训练集和测试 集,例如可W将样本的75%作为训练集,样本的25%作为测试集,将训练集的样本数据输入 统计模型中,构建统计模型,并在此过程中不断迭代样本,直到训练结束。之后将测试样本 输入构建的统计模型,进行测试验证并可W调整统计模型的参数,最终完成评估模型训练 过程108,得到评估模型109。
[0080] 可W理解,本公开的实施例中的统计模型并不限于GBDT模型,也可W采用例如其 他决策树模型、逻辑回归模型、随机森林模型等等。
[0081] 构建了评估模型之后,方法200进行到步骤208,响应于收到新的评估对象的相关 数据,计算新的评估对象的特征向量。在该步骤中,根据本公开的一个具体实施例,当需要 对新的评估对象Xnew进行预测或评估时,响应于接收到新的评估对象Xnew的相关数据,将运 些数据投射到构建的知识图中,W形成新的评估对象所关联的图结构。之后,可W根据式 (1 )、式(2 )和式(3 )来计算新的评估对象Xnew的特征向;*巧ew.。
[0082] 在步骤210,基于评估模型和新的评估对象的特征向量,计算新的评估对象的评估 指标。在本公开的一个实施例中,可W由构建的GBDT模型预测或评估出评估指标P(Xnew),p (Xnew)值越高则表示可信度越低。
[0083] 在步骤212,基于新的评估对象的评估指标,由计算机根据判别条件完成关于新的 评估对象的审核操作。在该步骤中,计算机根据预设的判别条件,例如阔值(诸如Pthreshuld、 Phigh和/或Pi?等)条件,当评估指标P (Xnew)〉Phigh表明可信度不高,计算机自动拒绝,即审核 不通过;P ( Xnew) <Pl?表明可信度高,计算机自动接受,即审核通过;Plow<P ( Xnew) <Phigh时,可 W采用加入其他审核标准的方式或者介入人工审核等等。
[0084] 需要指出,在对新的评估对象做出审核后,可W将新的评估对象从知识图中移除, W保证评估模型的稳定性。为了能够更好地提供预测或评估结果,可W在线学习和更新评 估模型。当评估模型部署之后,例如可W定期将新的数据W及结果更新到知识图模型中,由 于数据维度的增加,模型能够学习到新的特征并加 W利用,W提高其预测准确率。数据更 新、训练W及测试结束后,对比新的评估模型与已有评估模型的准确度,当且仅当新模型准 确率提高时才部署新评估模型,否则等待下轮学习训练过程。
[0085] 根据本公开的实施例,还提供一种计算机实现的信息处理装置400。如图4所示,装 置400包括:图数据库创建装置401,被配置为获取多个训练评估对象的相关数据,构建知识 图,并且创建基于知识图的图数据库,其中知识图的每个节点为评估对象或者与评估对象 具有关联关系的关联对象,知识图的边描述知识图的节点之间的关系并且具有相应权重; 第一计算装置402,被配置为基于训练评估对象之间的距离,计算每个训练评估对象的特征 向量,其中距离至少基于训练评估对象之间的路径权重,特征向量针对每个训练评估对象 指示在一定的距离内不同维度的图数据库中其他训练评估对象的数量;评估模型构建装置 403,被配置为将特征向量和多个训练评估对象的评估类别作为样本集合,W构建评估模 型;第二计算装置404,被配置为响应于收到新的评估对象的相关数据,计算新的评估对象 的特征向量;W及基于评估模型和新的评估对象的特征向量,计算新的评估对象的评估指 标;W及审核处理装置405,被配置为基于新的评估对象的评估指标,由计算机根据判别条 件完成关于新的评估对象的审核操作。
[0086] 根据本公开的实施例,其中训练评估对象之间的距离可W根据下式计算得到:
[0087]
[008引其中汾别表示第i训练评估对象和第j训练评估对象,D(Xi,Xj)表示&和Xj之间的距 离,h巧,巧表示&和X脯粗上的节点,L表示&和&的之间路径的数目卢鳥,吗表示Xi和X撕路径1 上边的权重;为路径1的影响因子
表示影响因子最大的路径所经过的节点数目。
[0089] 根据本公开的实施例,第一计算装置402还被配置为:针对训练评估对象的特定属 性的每个属性值,统计距离D(xi,xj)中小于特定距离阔值的路径数量;W及基于统计的路径 数量,得到训练评估对象的特征向量。
[0090] 根据本公开的实施例,第二计算装置404还被配置为:将新的评估对象的相关数据 投射到知识图中;基于新的评估对象与知识图中的其他评估对象之间的路径权重,计算新 的评估对象与其他评估对象之间的距离;W及基于新的评估对象与其他评估对象之间的距 离,计算新的评估对象的特征向量。
[0091] 根据本公开的实施例,其中评估模型包括W下中的一项或多项:决策树、逻辑回归 模型、随机森林模型。
[0092] 根据本公开的实施例,还包括更新装置406,被配置为更新图数据库和评估模型。
[0093] 根据本公开的实施例,更新装置406还被配置为:将多个新的评估对象和相应的评 估类别更新到知识图中;基于更新后的知识图和图数据库,生成新的评估模型;确定新的评 估模型的准确度;W及基于新的评估模型的准确度,更新评估模型。
[0094] 根据本公开的实施例,其中图的节点中的与评估对象具有关联关系的关联对象包 括W下项中的一项或多项:评估对象相关联的个人数据对象;评估对象相关联的征信数据 对象;评估对象相关联的社会关系数据对象;评估对象相关联的社交网络数据对象;评估对 象相关联的通信数据对象。
[00%]根据本公开的实施例,其中图中的边的权重至少基于W下项中的一项或多项来确 定:边所关联的节点的关系类型;边所关联的节点之间的关联程度。
[0096]通过W上描述和相关附图中所给出的教导,运里所给出的本公开的许多修改形式 和其它实施方式将被本公开相关领域的技术人员所意识到。因此,所要理解的是,本公开的 实施方式并不局限于所公开的【具体实施方式】,并且修改形式和其它实施方式意在包括在本 公开的范围之内。此外,虽然W上描述和相关附图在部件和/或功能的某些示例组合形式的 背景下对示例实施方式进行了描述,但是应当意识到的是,可W由备选实施方式提供部件 和/或功能的不同组合形式而并不背离本公开的范围。就运点而言,例如,与W上明确描述 的有所不同的部件和/或功能的其它组合形式也被预期处于本公开的范围之内。虽然运里 采用了具体术语,但是它们仅W-般且描述性的含义所使用而并非意在进行限制。
【主权项】
1. 一种计算机实现的信息处理方法,所述方法包括: 获取多个训练评估对象的相关数据,构建知识图,并且创建基于所述知识图的图数据 库,其中所述知识图的每个节点为评估对象或者与所述评估对象具有关联关系的关联对 象,所述知识图的边描述所述知识图的所述节点之间的关系并且具有相应权重; 基于所述训练评估对象之间的距离,计算每个训练评估对象的特征向量,其中所述距 离至少基于所述训练评估对象之间的路径权重,所述特征向量针对每个所述训练评估对象 指示在一定的距离内不同维度的所述图数据库中其他训练评估对象的数量; 将所述特征向量和所述多个训练评估对象的评估类别作为样本集合,以构建评估模 型; 响应于收到新的评估对象的相关数据,计算所述新的评估对象的特征向量; 基于所述评估模型和所述新的评估对象的所述特征向量,计算所述新的评估对象的评 估指标;以及 基于所述新的评估对象的所述评估指标,由所述计算机根据判别条件完成关于所述新 的评估对象的审核操作。2. 根据权利要求1所述的方法,其中所述训练评估对象之间的距离根据下式计算得到:其中Xl、&分别表示第i训练评估对象和第j训练评估对象,D(Xl,Xj)表示&和&之间的距离, 表示耵和々路径1上的节点,L表示沿和々的之间路径的数目,?而·表示耵和々的路径1上所 述边的权重%路径1的影响因子表示影响因子最大的路径所经过的节点数目。3. 根据权利要求2所述的方法,其中基于所述训练评估对象之间的距离,计算每个训练 评估对象的特征向量包括: 针对所述训练评估对象的特定属性的每个属性值,统计所述距离D(xi,Xj)中小于特定 距离阈值的路径数量;以及 基于统计的所述路径数量,得到所述训练评估对象的特征向量。4. 根据权利要求1所述的方法,其中响应于收到新的评估对象的相关数据,计算所述新 的评估对象的特征向量包括: 将所述新的评估对象的相关数据投射到所述知识图中; 基于所述新的评估对象与所述知识图中的其他评估对象之间的路径权重,计算所述新 的评估对象与所述其他评估对象之间的距离;以及 基于所述新的评估对象与所述其他评估对象之间的距离,计算所述新的评估对象的特 征向量。5. 根据权利要求1所述的方法,其中所述评估模型包括以下中的一项或多项:决策树、 逻辑回归模型、随机森林模型。6. 根据权利要求1所述的方法,还包括:更新所述图数据库和所述评估模型。7. 根据权利要求6所述的方法,还包括: 将多个所述新的评估对象和相应的评估类别更新到所述知识图中; 基于更新后的所述知识图和图数据库,生成新的评估模型; 确定所述新的评估模型的准确度;以及 基于所述新的评估模型的所述准确度,更新所述评估模型。8. 根据权利要求1所述的方法,其中所述图的节点中的与所述评估对象具有关联关系 的关联对象包括以下项中的一项或多项:评估对象相关联的个人数据对象;评估对象相关 联的征信数据对象;评估对象相关联的社会关系数据对象;评估对象相关联的社交网络数 据对象;评估对象相关联的通信数据对象。9. 根据权利要求1所述的方法,其中所述图中的所述边的权重至少基于以下项中的一 项或多项来确定:所述边所关联的节点的关系类型;所述边所关联的节点之间的关联程度。10. -种计算机实现的信息处理装置,所述装置包括: 图数据库创建装置,被配置为获取多个训练评估对象的相关数据,构建知识图,并且创 建基于所述知识图的图数据库,其中所述知识图的每个节点为评估对象或者与所述评估对 象具有关联关系的关联对象,所述知识图的边描述所述知识图的所述节点之间的关系并且 具有相应权重; 第一计算装置,被配置为基于所述训练评估对象之间的距离,计算每个训练评估对象 的特征向量,其中所述距离至少基于所述训练评估对象之间的路径权重,所述特征向量针 对每个所述训练评估对象指示在一定的距离内不同维度的所述图数据库中其他训练评估 对象的数量; 评估模型构建装置,被配置为将所述特征向量和所述多个训练评估对象的评估类别作 为样本集合,以构建评估模型; 第二计算装置,被配置为响应于收到新的评估对象的相关数据,计算所述新的评估对 象的特征向量;以及基于所述评估模型和所述新的评估对象的所述特征向量,计算所述新 的评估对象的评估指标;以及 审核处理装置,被配置为基于所述新的评估对象的所述评估指标,由所述计算机根据 判别条件完成关于所述新的评估对象的审核操作。11. 根据权利要求10所述的装置,其中所述训练评估对象之间的距离根据下式计算得 到:其中&、幻分别表示第i训练评估对象和第j训练评估对象,D(Xl,Xj)表示取和幻之间的距离, 表示沿和幻路径1上的节点,L表示沿和幻的之间路径的数目,叫内表示沿和幻的路径1上所述边的权重;为路径1的影响因子: 表示影响因子最大的路径所经过的节点数目。12. 根据权利要求11所述的装置,所述第一计算装置还被配置为: 针对所述训练评估对象的特定属性的每个属性值,统计所述距离D(xi,Xj)中小于特定 距离阈值的路径数量;以及 基于统计的所述路径数量,得到所述训练评估对象的特征向量。13. 根据权利要求10所述的装置,所述第二计算装置还被配置为: 将所述新的评估对象的相关数据投射到所述知识图中; 基于所述新的评估对象与所述知识图中的其他评估对象之间的路径权重,计算所述新 的评估对象与所述其他评估对象之间的距离;以及 基于所述新的评估对象与所述其他评估对象之间的距离,计算所述新的评估对象的特 征向量。14. 根据权利要求10所述的装置,其中所述评估模型包括以下中的一项或多项:决策 树、逻辑回归模型、随机森林模型。15. 根据权利要求10所述的装置,还包括更新装置,被配置为更新所述图数据库和所述 评估t吴型。16. 根据权利要求15所述的装置,所述更新装置还被配置为: 将多个所述新的评估对象和相应的评估类别更新到所述知识图中; 基于更新后的所述知识图和图数据库,生成新的评估模型; 确定所述新的评估模型的准确度;以及 基于所述新的评估模型的所述准确度,更新所述评估模型。17. 根据权利要求10所述的装置,其中所述图的节点中的与所述评估对象具有关联关 系的关联对象包括以下项中的一项或多项:评估对象相关联的个人数据对象;评估对象相 关联的征信数据对象;评估对象相关联的社会关系数据对象;评估对象相关联的社交网络 数据对象;评估对象相关联的通信数据对象。18. 根据权利要求10所述的装置,其中所述图中的所述边的权重至少基于以下项中的 一项或多项来确定:所述边所关联的节点的关系类型;所述边所关联的节点之间的关联程 度。
【文档编号】G06F17/30GK106021377SQ201610310902
【公开日】2016年10月12日
【申请日】2016年5月11日
【发明人】单忆南, K·拉加塞图帕蒂, 程书欣, 毕鹏
【申请人】上海点荣金融信息服务有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1