特征选择方法及系统的利记博彩app
【技术领域】
[0001] 本发明涉及机器学习领域,尤其涉及一种特征选择方法及系统。
【背景技术】
[0002] 随着信息科技的迅速发展,数据越来越多,信息泛滥,实际的数据中往往包含着很 多冗余信息。因此在具体行业中,通常是在用某个数据之前,需要对该数据进行预处理,去 除包含的冗余信息进行分类决策,具体流程请参见图1。特征选择是一种重要的数据预处理 方法。特征选择是指从高维特征集合中根据某种评估标准选择输出性能最优的特征子集, 其目的是寻求保持数据集感兴趣特性的低维数据集合。通过对低维数据的分析来获得相应 的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。
[0003] 现有的 Relief 算法是一种特征权重算法(Feature weighting algorithms), 根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。 Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief系列算 法运行效率高,对数据类型没有限制,算法会赋予所有和类别相关性高的特征较高的权重, 所以算法的局限性在于不能有效的去除冗余特征,不能保证选择出的特征集具有高分类精 度。
【发明内容】
[0004] 基于此,有必要提供一种能够保证选择出的特征集具有高分类精度的特征选择方 法及系统。
[0005] -种特征选择方法,包括步骤:
[0006] 获取初始特征信息及决策特征信息;所述初始特征信息包括初始特征集,所述决 策特征信息包括决策特征集;
[0007] 根据所述初始特征信息及所述决策特征信息确定所述初始特征集的每个特征子 集与决策特征集的互信息;
[0008] 将所述特征子集中与决策特征集具有最大互信息的特征子集作为待选特征集,并 根据已选特征集与待选特征集确定待选相关熵;
[0009] 根据所述待选相关熵是否大于所述已选特征集的已选相关熵,确定是否将所述待 选特征集中的特征放入到所述已选特征集中。
[0010] -种特征选择系统,包括:
[0011] 获取模块,用于获取初始特征信息及决策特征信息;所述初始特征信息包括初始 特征集,所述决策特征信息包括决策特征集;
[0012] 互信息确定模块,用于根据所述初始特征信息及所述决策特征信息确定所述初始 特征集的每个特征子集与决策特征集的互信息;
[0013] 相关熵确定模块,用于将所述特征子集中与决策特征集具有最大互信息的特征子 集作为待选特征集,并根据已选特征集与待选特征集确定待选相关熵;
[0014] 特征选择模块,用于根据所述待选相关熵是否大于所述已选特征集的已选相关 熵,确定是否将所述待选特征集中的特征放入到所述已选特征集中。
[0015] 上述特征选择方法及系统选择与决策特征集具有最大互信息的特征子集作为待 选特征集,以保证选择出的特征集具有高区分能力。根据待选相关熵是否大于已选特征集 的已选相关熵,确定是否将待选特征集中的特征放入到已选特征集中,如此可以在保证具 有高区分能力的同时保证冗余度小,以确保选择出的特征集具有高分类精度。
【附图说明】
[0016] 图1为数据进行预处理的流程图;
[0017] 图2为一种实施方式的特征选择方法的流程图;
[0018] 图3为图2中一个步骤的具体流程图;
[0019] 图4为一种实施方式的特征选择系统的结构图;
[0020] 图5为图4中一个模块的具体结构图。
【具体实施方式】
[0021] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中 给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文 所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透 彻全面。
[0022] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的 技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具 体的实施例的目的,不是旨在于限制本发明。本文所使用的术语"或/和"包括一个或多个 相关的所列项目的任意的和所有的组合。
[0023] 如图2所示,一种实施方式的特征选择方法,包括步骤:
[0024] SllO :获取初始特征信息及决策特征信息。所述初始特征信息包括初始特征集,所 述决策特征信息包括决策特征集。
[0025] 所述初始特征信息还包括初始特征集(用C表示)与决策特征集(用D表示)所 属的论域(用U表示)、各个特征的值的集合(用V表示)及映射函数(用f表示);其中, 映射函数是V关于U和C U D的函数,可以表示为f:UXR - V,R = C U D。
[0026] 决策特征集可以包括一个决策特征,如d ;也可以包括多个决策特征,如山,d2, d3,…,dn 〇
[0027] 初始特征信息没有数据类别的要求,能同时处理离散数据、连续数据和模糊数据 等信息。
[0028] S130 :根据所述初始特征信息及所述决策特征信息确定所述初始特征集的每个特 征子集与决策特征集的互信息。
[0029] 初始特征集的特征子集用Cj来表示,则当初始特征集有k个特征时,特征子集的 个数为2k,即j的取值范围为1至2k的自然数。
[0030] 在其中一个实施例中,根据初始特征信息及决策特征信息可以确定初始特征集的 每个特征子集与决策特征集的互信息I (Cj;D)。具体地,可以根据互信息的定义公式确定初 始特征集的每个特征子集与决策特征集的互信息I (C];D)。在本实施例中,
[0032] 其中,[Xl]C,[X JD为C jP D生成的包含X i的模糊等价类。
[0033] 在另一个实施例中,所述特征子集与决策特征集的互信息为特征子集与已选特征 集的并集中的每个特征与所述决策特征集的互信息的平均值。如此,使确定的特征子集与 决策特征集的互信息更可靠。
[0034] 具体地,请参阅图3,在本实施例中,步骤S130具体包括:
[0035] S131 :根据所述初始特征集确定所述特征子集。
[0036] 当初始特征集有k个特征时,可以确定2k个特征子集C p C2,…,Cj,…,C2k。其 中,k和j均为自然数,且1彡j彡2k。
[0037] S133 :根据初始特征信息及决策特征信息确定所述特征子集与所述已选特征集的 并集中的每个特征与所述决策特征集的互信息。
[0038] 已选特征集用S表示,初始化时S为空集。设a i e C j U S,其中,a i为特征子集 与所述已选特征集的并集中的一个特征。可以根据互信息的定义公式确定每个特征子集与 所述已选特征集的并集中的每个特征与所述决策特征集的互信息I ( a 1;D)。
[0039] S135:根据所述特征子集与所述已选特征集的并集中的每个特征与所述决策特征 集的互信息确定所述特征子集与所述决策特征集的互信息。
[0040] 在本实施例中,根据特征子集与已选特征集的并集中的每个特征与所述决策特征 集的互信息的平均值来确定特征子集与决策特征集的互信息,具体为:
[0042] S150:将所述特征子集中与决策特征集具有最大互信息的特征子集作为待选特征 集,并根据已选特征集与待选特征集确定待选相关熵。
[0043] 待选特征集用M表示,则M等于与决策特征集的互信息I (Cj;D)的值最大的特征 子集。
[0044] 尽管与决策特征集相关性越高的特征区分能力越强,但由于所选特征之间存在相 互交叉冗余,往往选择的最相关的特征子集在构建分类器时是次优解,只能保证具有高区 分能力,而不能保证选择出的特征集具有高分类精度。这是由于其分类精度未必比相关性 相对较弱的特征子集高。因此必须同时考虑特征之间的冗余性或独立性,使所选择的特征 子集不仅具有较强的相关性,而且要保证特征间的冗余度最小,才能选择出具有高分类精 度的特征集。本发明采用相关熵来度量特征集的独立性。
[0045] 在其中一个实施例中,根据相关熵的定义公式
来确 定待选相关熵。在本实施例中,A1代表所述已选特征集与所述待选特征集的并集的关系矩 阵的第i个特征值;N为已选特征集与待选特征集的并集的特征个数。
[0046] S170:根据所述待选相关熵是否大于所述已选特征集的已选相关熵,确定是否将 所述待选特征集中的特征放入到所述已选特征集中。
[0047] 相关熵越大,则特征集的相关性越小,也即独立性越大;反之,则相反。如果所有特 征线性相关,则相关熵为0 ;如果所有特征均相互独立,则相关熵为1。因此,可以通过所述 待选相关熵是否大于所述已选特征集的已选相关熵,确定是否将所述待选特征集中的特征 放入到所述已选特征集中。
[0048] 在其中一个实施例中,当所述待选相关熵大于所述已选相关熵时,将所述待选特 征集中的特征放入到所述已选特征集中,并从所述初始特征集中删除。即S = S+M,C = C-M。
[0049] 当所述待选相关熵不大于所述已选相关熵时,将所述待选特征集中的特征从所述 初始特征集中删除。即C = C-M。
[0050] 请继续参照图1,在其中一个实施例中,所述特征选择方法还包括步骤:
[0051] S180:重复所述确定待选相关熵的步骤及所述确定是否将所述待选特征集中的特 征放入到所述已选特征集中的步骤,直至所述初始特征为空。
[0052] 上述特征选择方法,选择与决策特征集具有最大互信息的特征子集作为待选特征 集,以保证选择出的特征集具有高区分能力。根据待选相关熵是否大于所述已选特征集的 已选相关熵,确定是否将待选特征集中的特征放入到所述已选特征集中,如此可以在保证 具有高区分能力的同时保证冗余度小,以确保选择出的特征集具有高分类精度。
[0053] 如图4所示,一种实施方式的特征选择系统,包括:
[0054] 获取模块110,用于获取初始特征信息及决策特征信息。所述初始特征信息包括初 始特征集,所述决策特征信息包括决策特征集。
[0055] 所述初始特征信息还包括初始特征集(用C表示)与决策特征集(用D表示)所 属的论域(用U表示)、各个特征的值的集合(用V表示)及映射函数(用f表示);其中, 映射函数是V关于U和C U D的函数,可以表示为f:UXR - V,R = C U D。
[0056] 决策特征集可以包括一个决策特征,如d ;也可以包括多个决策特征,如山,d2, d3,…