一种基于共享模型空间学习的零镜头图像分类方法
【技术领域】
[0001] 本发明涉及图像检索领域,尤其涉及一种基于共享模型空间学习的零镜头图像分 类方法。
【背景技术】
[0002] 图像分类技术在诸多现实场景中有着广泛的应用,如何构建准确、高效的分类模 型是图像分类技术中的最重要的一步。现有的分类器构建方法主要是基于有监督学习,即 先由人工收集大量的目标类别的有标注的训练数据,再用这些训练数据为目标类别构建分 类模型。近年来,随着场景的复杂化和数据的海量化,时常需要解决大量类别的图像分类问 题。然而,按照现有的有监督学习方法,为这些目标类别收集足量的有标注的训练数据的成 本非常高。例如对于自然物体分类,就有数以万记的类别,为它们都收集有标注的训练数据 可能需要人们准确地标注上亿的图像,这几乎是不可能的。所以,如何在缺乏有标注图像的 条件下为目标类别构建分类模型,即零镜头学习(Zero-shot learning),成为了一个重要 问题。
[0003] 现有的零镜头图像分类方法主要利用类别之间所共享的属性(Attribute)信息作 为桥梁进行知识迀移。类别的属性是指在语义上可以描述类别的特征的信息。为了在没有 有标注图像的情况下为目标类别构建分类模型,零镜头学习将利用一些拥有丰富有标注数 据的源类别的知识,借助类别属性作为介质,将信息传递到目标类别中。现有的零镜头学习 方法一般采用了 "特征-属性-类别"的二级识别框架来进行知识迀移。具体来说,利用源类 别的图像特征与给定的类别属性信息构建出属性的识别模型。由于这些属性是在源类别和 目标类别之间共享的,所以对于目标类别的图像,这些属性识别模型也有效。对于目标类 另IJ,可以很容易地得到类别与属性之间的关系。在进行分类时,只需将利用在源类别上得到 的属性识别模型识别出图像所包含的属性信息,再将图像的属性信息与各个目标类别之间 的属性信息进行对比,找出最相似的类别作为分类结果。这样,就在目标类别没有有标注数 据的情况下为其构建出了分类模型。比较有代表性的工作之一有直接属性预测模型 (Direct Attribute Prediction),该方法通过在图像特征与属性之间构建多路分类器来 实现属性的识别。另一个是跨模态知识迀移(Cross-modal Transfer),该方法通过源类别 的有标注数据与类别属性训练出一个线性回归模型来实现属性的识别。
[0004] 从目前的研究来看,现有的利用属性进行知识迀移以实现零镜头分类的方法都使 用属性作为识别的中间结果。但是这种框架将图像分类过程拆解为两步,从而增加了分类 过程中的信息损失,以至于得到的分类模型不够准确,分类精度低,不能满足实际应用的需 求。所以,如何更好地利用类别的属性信息来进行知识迀移、在没有有标注数据的情况下为 目标类别构建更准确的分类模型,仍需要进一步的研究。
【发明内容】
[0005] 本发明旨在提供一种基于共享模型空间学习的零镜头图像分类方法,解决在图像 分类中目标类别没有有标注数据的情况下,利用源类别进行知识迀移以构建准确的分类模 型的问题。
[0006] 本发明的发明目的是通过下述技术方案来实现的:
[0007] 一种基于共享模型空间学习的零镜头图像分类方法,包括如下步骤:
[0008] 步骤S1:分别对源类别数据中的有标注图像与目标类别数据中的无标注图像进行 向量化特征表示,得到源类别图像特征向量和目标类别图像特征向量;
[0009] 步骤S2:分别针对源类别数据和目标类别数据构建出源类别属性表示和目标类别 属性表示;
[0010] 步骤S3:利用步骤S1中得到的源类别图像特征向量和目标类别图像特征向量,以 及步骤S2中得到的源类别属性表示和目标类别属性表示构造零镜头学习函数;
[0011] 步骤S4:利用迭代式的优化方法求解步骤S3中得到的零镜头学习函数,并得到共 享模型空间;
[0012] 步骤S5:利用上一步得到的共享模型空间以及步骤S2中得到的目标类别属性表 示,直接产生各个目标类别对应的一级分类模型;
[0013] 步骤S6:利用步骤S5中得到的一级分类模型以及步骤S1中得到的目标类别图像特 征向量产生最终的目标类别分类结果。
[0014] 进一步的,所述步骤S3中构造出的零镜头学习函数为:
[0015]
[0016]其中,α和β是控制各部分在零镜头学习函数中权重的超参数;
[0017] ||M:| If = Σ"甽表示一个矩阵所有元素的平方和;
[0018] xs =[成略…,4S]:为步骤S1中所述的源类别图像特征向量Xf构成的矩阵;
[0019] = [X丨,4为步骤S1中所述的目标类别图像特征向量X丨构成的矩阵;
[0020] Ys = [yl,尨…:成]为源类别数据中每个图像所对应的类别向量yf构成的矩阵;
[0021] 鳥=[aLaLmak ]为源类别数据中每个源类别属性向量3丨构成的矩阵,所述源 类别属性向量a丨为所述步骤S2中源类别属性表示的一种表示方法;
[0022] At =⑷名ay为目标类别数据中每个目标类别属性向量构成的矩阵,所 述目标类别属性向量a丨为所述步骤S2中目标类别属性表示的一种表示方法;
[0023] Yt = [ytyLyi1t]为目标类别数据中每个无标注图像所对应的类别向量:^构成 的矩阵;
[0024] V为共享模型空间。
[0025] 进一步的,所述步骤S4:利用迭代式的优化方法求解步骤S3中得到的零镜头学习 函数,并得到共享模型空间,具体包括如下步骤:
[0026] (1)初始化共享模型空间V和目标类别矩阵Yt;
[0027] (2)利用初始化后的共享模型空间V,优化目标类别矩阵Yt,具体步骤为:
[0028]初始化后的共享模型空间V已经给定,优化目标类别矩阵Yt的过程为行解耦,对矩 阵形式的零镜头学习函数的每一行进行单独的处理,该零镜头学习函数对于yi的部分如 下:
[0030]优化目标类别矩阵Yt的公式如下:
[0032] 其中表示目标类别数据中第i个无标注图像是否属于目标类别c;
[0033] (3)利用初始化后的目标类别矩阵Yt,优化共享模型空间V,具体步骤为:
[0034]初始化后的目标类别矩阵Yt已经固定,进行如下定义:
[0036]对零镜头学习函数进行如下近似:
[0040] 再令上述导数为0,可以得到优化共享模型空间V的公式如下:
[0041] ν=(χ7 ι+^?Τ^?Ηλ?Τ1
[0042] 不断迭代优化共享模型空间V和Yt直至零镜头学习函数的值收敛,即可得到共享 模型空间V。
[0043] 进一步的,所述步骤S5中的一级分类模型fjx)计算方法为:
[0044] fc(x)=xVa/c
[0045] 其中只二乂]1,:ac. = af。
[0046] 本发明的有益效果:
[0047] (1)本发明提出了一种新的类别属性的使用方式,利用源类别的有标注数据学习 出类别之间共享的模型空间,而非共享属性空间,利用属性作为输入参数,通过共享的模型 空间产生相应类别的一级分类模型,直接从图像特征得到分类结果,而无需利用属性作为 中间结果来进行二级分类,减少了分类过程中的信息损失,从而提高了分类模型的准确性。 [0048] (2)本发明在分类模型训练过程中,采用"直推式"的学习方法,将目标类别的无标 注数据所提供的一些无监督信息应用到零镜头学习函数学习中,这样可以使得学习到的共 享模型空间能反映目标类别的信息。并通过一种联合学习框架将源类别数据中的有标注数 据与目标类别的无标注数据结合在一起进行学习,使在没有有标数据的情况下学习到的共 享模型空间能够更好地描述目标类别的特征。
【附图说明】
[0049] 图1为本发明所述的一种基于共享模型空间学习的零镜头图像分类方法流程图。
【具体实施方式】
[0050] 以下参照附图1,结合具体的实施方式对本发明作进一步的说明。
[0051] 本发明所述的一种基于共享模型空间学习的零镜头图像分类方法,包括如下步 骤:
[0052]步骤S1:利用特征抽取工具分别对源类别数据中的有标注图像与目标类别数据中 的无标注图像进行向量化特征表示,得到源类别图像特征向量和目标类别图像特征向量。 [0053]利用Lire或DeCAF图像特征提取工具对图像抽取一种或多种特征向量,并拼合为 一个整体向量Xi=(Xll,X12,···,Xlnl,···,Xkl,Xk2,…,Xknk,…,Xml,Xm2,…,Xmnm)f I = (Pi, P2,……,pn),其中PxXkj表示第k种特征向量中的第j个分量,而^^则表示第k种特征向量中 的最后一个分量。同时,记(1 = !1^表示图像特征的总维度。以下,用xf表示各个源类别图像 特征向量,用X〗表示各个目标类别图像特征向量。
[0054] 步骤S2:分别针对源类别数据和目标类别数据构建出源类别属性表示和目标类别 属性表示;
[0055] 对于任一种类别c,其属性表示为&。= (ac^a。% ···#"),其中a。谦示该属性表示的 第j个分量。本发明使用单词表示(Word representation)来作为类别属性表示。单词表示 是从在一个大规模的文本数据库中,利用自然语言处理(Natural language processing) 等相关方法挖掘出的单词的一种r维的向量化表示,单词之间的潜在的联系可以用该向量 很好地描述。本发明利用在维基百科(Wikipedia)上学习出的单词表示作为类别属性表示。 由于几乎所有的英文词汇都会出现在维基百科中,所以可以为任何一个类别,找到对应单 词表示作为它的属性表示。对于任意源类别和目标类别,都可以用该方法得到其属性表示。 以下,用a〖表示源类别属性表示,用a〗表示目标类别属性表示。
[0056] 步骤S3:利用步骤S1中得到的源类别图像特征向量和目标类别图像特征向量,以 及步骤S2中得到的源类别属性表示和目标类别属性表示构造零镜头学习函数,本发明构造 的零镜头学习函数如下:
[0058]其中,α和β是控制各部分在零镜头学习函数中权重的超参数;
[0059] |_丨|〖=Σ? rn〗表示一个矩阵所有元素的平方和;