具有隐私分级可控的个性化图像检索方法
【专利摘要】本发明涉及一种具有隐私分级可控的个性化图像检索方法,针对个性化图像检索中存在的隐私保护问题,研究一种分层结构的用户隐私保护方案,具体内容包括构建分层用户兴趣模型并初始化,更新分层用户兴趣模型,裁剪某一层次以下的结点,或者裁剪树型结构中的目录分支,根据兴趣模型进行检索,将最相似的l幅图像作为检索结果返回给用户。本发明实现了对个性化图像检索的用户个人隐私信息的有效保护。
【专利说明】具有隐私分级可控的个性化图像检索方法
【技术领域】
[0001]本发明面向个性化图像检索的隐私保护问题,运用计算机安全理论与图像识别技术,获取用户感兴趣的图像内容特征,为了保护用户感兴趣的图像信息,通过建立分层结构的用户兴趣模型,实施一种具有隐私分级可控的保护措施,从而对个性化图像检索的用户个人隐私信息进行有效地保护。
技术背景
[0002]随着多媒体和因特网技术的迅猛发展,无论是国防军事、工业制造、新闻媒体、医疗卫生还是大众娱乐,各行各业对图像信息的使用越来越广泛,数字图像的数量正以惊人的速度增长。人们希望能得到更符合个人需求的检索结果。由此“个性化图像检索”越来越弓I起人们的重视,已成为人们的一个研究热点。
[0003]为了获取用户的个性化兴趣语义,许多检索系统要求用户提供个人信息或搜集用户访问、浏览网页的记录、检索图片行为的个人数据。这些系统通过分析用户检索行为推测用户兴趣爱好,以建立和更新用户兴趣文件,提高个性化检索性能。然而,由于用户兴趣文件通常涉及到用户的个人隐私,这种个性化服务将面临侵犯用户隐私的重大法律障碍,成为目前各大搜索引擎棘手的问题。个性化检索服务中存在的隐私保护(privacypreservation)问题,不仅需要服务商担负起相应的责任,从技术上也要提供足够的保障手段。因此,现有的个性化图像检索技术一个迫切需要解决的问题,就是如何在提供更好的个性化检索服务、满足用户个性化检索需求的同时,有效地对用户个人隐私进行保护。
【发明内容】
[0004]本发明将针对个性化图像检索中存在的隐私保护问题,研究一种分层结构的用户隐私保护方案。首先,在用户进行图像检索时,通过相关反馈等人机交互,获取用户感兴趣的图像特征,这部分图像特征将作为用户个性化的兴趣信息,对其采取隐私保护措施;然后,对所收集到的用户兴趣信息建立分层结构的兴趣模型,以满足用户各自不同隐私保护级别的需求。最后,将该隐私保护方案应用于个性化图像检索过程中,建立个性化图像检索的隐私保护系统,在满足用户个性化检索需求的同时,用户通过选择不同的隐私保护级别,有效地对用户个人隐私进行保护,流程框图如图1所示。
[0005]具体步骤如下:
[0006]1.构建分层用户兴趣模型并初始化,
[0007]所述的分层用户兴趣模型包含5层,每层具有节点,每个节点包含关键词和节点权重,每个分层用户兴趣模型对应一个用户;
[0008]第一层有一个节点,该节点的关键词为用户,节点权重为该节点的子节点的权重之和;
[0009]第二层有两个节点,这两个节点的关键词分别为生物和非生物,每个节点的权重为其子节点的权重之和;[0010]第三层有三个节点,这三个节点的关键词为植物、动物、交通,每个节点的权重为其子节点的权重之和;
[0011]第四层有多个节点,每个节点的关键词为所述分层用户兴趣模型对应用户的A类长期兴趣中的一个关键词,如果第四层中的节点有子节点,则该节点权重为其子节点的权重之和,如果第四层中的节点不存在子节点,则该节点权重为关键词对应的兴趣度;
[0012]第五层有多个节点,每个节点的关键词为分层用户兴趣模型对应用户的B类长期兴趣中的一个关键词,每个节点的节点权重为关键词对应的兴趣度;
[0013]分层用户兴趣模型初始化:
[0014]初始化时,模型包括前三层,根据用户检索信息生成第四、五层,具体如下:
[0015]根据用户的每次检索生成一次短期兴趣,用户短期兴趣包括关键词,关键词图像所对应ID以及关键词兴趣度,由至少10次短期兴趣生成一次长期兴趣,长期兴趣分为A类和B类,均包括关键词以及关键词所对应的兴趣度,其中B类是A类中某一关键词的子类;
[0016]模型第四层中节点为A类长期兴趣中的各个关键词,模型第五层中节点为B类长期兴趣中的各个关键词,第五层节点权重为关键词对应的兴趣度;如果第四层中的某些节点是第五层中某些节点的父类,则第四层中对应节点的权重为第五层中子节点的权重之和,否则,第四层中节点权重为节点关键词对应的兴趣度;
[0017]在个性化图像检索中,主要是利用用户的兴趣偏好来达到提高图像检索结果准确率的目的。现今,表示用户兴趣爱好的一种主要方式是通过用户兴趣模型,它是反映及存储用户兴趣爱好数据的重要工具。因此,合理而有效地将用户的兴趣爱好数据在用户兴趣模型里面进行组织、表示和使用是实现用户高质量个性化图像检索的必要条件。同时,用户兴趣模型也使得用户面临隐私泄露的风险,使得人们不敢或不愿使用个性化图像检索系统。为此,本发明重点对用户兴趣模型进行保护,实现一种具有隐私分级可控的个性化图像检索。
[0018]具有隐私分级可控的图像检索的前提条件是用户兴趣信息有分层结构的特性,SP形成分层结构的兴趣模型,在分层结构中,下层信息是用户最隐私的数据,上层数据是下层数据的泛化。虽然上层信息不够精确,但是其安全性好于下层信息,只有这样才能保证隐私和检索结果的协作性。
[0019]为了能够既准确地划分出用户的兴趣偏好层次,又给予用户自主控制个人隐私信息对检索开放程度的权力,并且减少用户主动参与模型建立和更新的负担,本发明提出一个结合ODP目录和用户检索历史建立用户模型的方法,这一方法只需要用户在建模初期进行少量主动参与的操作,而在使用过程中将完全隐式地进行模型修正和更新。
[0020]本发明提出的隐私可控开放的用户偏好建模方法参考简化的ODP树型结构建立,但是根据不同用户的不同兴趣分支以及分支的权重,在目录层次的组织上会依据用户个性进行不同的构造,并且在树型结构的结点上加入兴趣权重信息,以表达用户对不同的兴趣的重视程度。其中树型模型结构中每个结点定义为node= {keyword, weight},且父结点的权重值是其子结点权重值之和。
[0021]tiM.dght 二 [ nc M-eight (I)
ncen.children.[0022]其中n.weight是某一节点的权重,nc.weight是其子节点的权重[0023]所述的用户兴趣信息的获取是我们之前已有工作,即公知技术,包括用户短期兴趣的获取和用户长期兴趣的获取,因此只做简要叙述。
[0024]用户兴趣模型中短期兴趣的获取方法首先通过HSV颜色直方图特征提取算法、Gabor特征提取算法、不变矩特征提取算法、基于权重调整的相关反馈方法获取用户短期兴趣中的视觉特征矢量(基于权重调整的相关反馈方法是对不同的图像特征赋予不同的权重,系统根据用户的反馈信息,把用户认为与关键图相似的特征赋予较大的权重,而不相似的特征则赋予较小的权重)。然后,采用SVM和投票法的思想构建了图像低层特征与高层语义特征的映射关系,以此来获得用户的短期兴趣。用户短期兴趣获取的信息有关键词,关键词图像所对应ID以及关键词兴趣度,如表I所示。
[0025]用户长期兴趣通过推理机对短期兴趣推理获取。该方法首先通过逐步非线性遗忘的兴趣推理算法获得用户长期兴趣中的视觉特征矢量,在这一过程中,本发明考虑到人脑的遗忘功能,将遗忘因子引入其中,以保证用户兴趣模型的可靠性;然后再通过聚类算法获取用户长期兴趣中的语义特征矢量。用户长期兴趣获取的信息有A类和B类,包括关键词以及关键词所对应的兴趣度,其中B类是A类中某一类的子类,如表2 (a-b)所示。
[0026]2.更新分层用户兴趣模型
[0027]基于简化的ODP静态目录结构,如果要实现用户兴趣模型的动态更新,最主要是节点扩展的问题,一种可能的实现是必须将更新信息又重新映射到完整的ODP目录,找到相应节点,从而在用户兴趣模型中更新。本发明称这种算法为基于ODP目录的动态自增长算法,其主要过程如下:
[0028]用户每检索m次更新一次分层用户兴趣模型,m3 10,用户的每次检索生成一次短期兴趣,由m次短期兴趣以及之前所有检索信息更新一次长期兴趣,根据长期兴趣,进行用户兴趣模型的更新;
[0029]首先更新第五层,根据更新后长期兴趣中B类信息的每一个关键词,将每一个关键词所对应的兴趣特征向量与用户兴趣模型中每一个节点的特征向量进行相似度计算,如果所得到的最大相似度大于系统设定的阀值(阀值范围为大于O小于1),那么只更新该节点的权重,即将更新后的长期兴趣中的兴趣度作为该关键词的权重信息;否则关键词为第五层新增节点,作为相似度最大节点的子节点,权重为该关键词的兴趣度;
[0030]更新第四层时,根据长期兴趣中A类信息的每一个关键词,将每一个关键词所对应的兴趣特征向量与用户兴趣模型中前四层每一个节点的特征向量进行相似度计算,如果所得到的最大相似度大于系统设定的阀值(阀值范围为大于O小于1),那么只更新该节点的权重,即将更新后的长期兴趣中的兴趣度作为该关键词的权重信息;否则关键词为新增节点,作为相似度最大节点的子节点,权重信息为该关键词的兴趣度。
[0031]所述的关键词的兴趣特征向量是指m次检索中该关键词所包含的关键图的颜色、纹理、形状特征,如果关键图数量大于1,则取平均值;所述的节点的特征向量是该结点所包含的最新10幅关键图的颜色、纹理、形状特征平均值;所述的相似度计算采用欧氏距离;所述的关键图为每次检索时输入的图像;
[0032]本专利中的相似度计算采用欧氏距离;
[0033]更新前三层
[0034]根据父节点是其子节点权重之和更新前三层节点的权重;[0035]3.保护性检索
[0036]首先加入保护规则:
[0037]裁剪某一层次以下的结点,或者裁剪树型结构中的目录分支;
[0038]具体方法为:计算兴趣模型中每个节点的暴露程度SI=log(l/p),其中,P为对应节点的权重;设定阈值λ ;如果Sl>x,0;^ λ≤I,则裁剪该结点及以下的结点,裁剪后剩余分支中的权重和关键词依然保留并且包含被裁剪部分的权重信息;否则,不裁剪;
[0039]提交关键图进行检索,在图像特征库中与每一幅图像提取的特征进行相似度计算;最后将最相似的14幅图像作为检索结果返回给用户。
[0040]其中图像相似度d的计算公式如公式(2) (3)所示,数值越小与关键图的相似度越高,对这些数值按从小到大排序,从中选出排序靠前的图像作为检索结果返回给用户。
[0041]d=S+a S(l-w) (2)
[0042]
【权利要求】
1.具有隐私分级可控的个性化图像检索方法,其特征在于包含以下内容: 构建分层用户兴趣模型并初始化; 所述的分层用户兴趣模型包含5层,每层具有节点,每个节点包含关键词和节点权重,每个分层用户兴趣模型对应一个用户; 第一层有一个节点,该节点的关键词为用户,节点权重为该节点的子节点的权重之和; 第二层有两个节点,这两个节点的关键词分别为生物和非生物,每个节点的权重为其子节点的权重之和; 第三层有三个节点,这三个节点的关键词为植物、动物、交通,每个节点的权重为其子节点的权重之和; 第四层有多个节点,每个节点的关键词为所述分层用户兴趣模型对应用户的A类长期兴趣中的一个关键词,如果第四层中的节点有子节点,则该节点权重为其子节点的权重之和,如果第四层中的节点不存在子节点,则该节点权重为关键词对应的兴趣度; 第五层有多个节点,每个节点的关键词为分层用户兴趣模型对应用户的B类长期兴趣中的一个关键词,每个节点的节点权重为关键词对应的兴趣度; 分层用户兴趣模型初始化: 初始化时,模型包括前三层,根据用户检索信息生成第四、五层,具体如下: 根据用户的每次检索生成一次短期兴趣,用户短期兴趣包括关键词,关键词图像所对应ID以及关键词兴趣度,由至少10次`短期兴趣生成一次长期兴趣,长期兴趣分为A类和B类,均包括关键词以及关键词所对应的兴趣度,其中B类是A类中某一关键词的子类;模型第四层中节点为A类长期兴趣中的各个关键词,模型第五层中节点为B类长期兴趣中的各个关键词,第五层节点权重为关键词对应的兴趣度;如果第四层中的某些节点是第五层中某些节点的父类,则第四层中对应节点的权重为第五层中子节点的权重之和,否贝U,第四层中节点权重为节点关键词对应的兴趣度; 更新分层用户兴趣模型; 用户每检索m次更新一次分层用户兴趣模型,m3 10,用户的每次检索生成一次短期兴趣,由m次短期兴趣以及之前所有检索信息更新一次长期兴趣,根据长期兴趣,进行用户兴趣模型的更新; 首先更新第五层,根据更新后长期兴趣中B类信息的每一个关键词,将每一个关键词所对应的兴趣特征向量与用户兴趣模型中每一个节点的特征向量进行相似度计算,如果所得到的最大相似度大于系统设定的阀值,那么只更新该节点的权重,即将更新后的长期兴趣中的兴趣度作为该关键词的权重信息;否则关键词为第五层新增节点,作为相似度最大节点的子节点,权重为该关键词的兴趣度; 更新第四层时,根据长期兴趣中A类信息的每一个关键词,将每一个关键词所对应的兴趣特征向量与用户兴趣模型中前四层每一个节点的特征向量进行相似度计算,如果所得到的最大相似度大于系统设定的阀值,那么只更新该节点的权重,即将更新后的长期兴趣中的兴趣度作为该关键词的权重信息;否则关键词为新增节点,作为相似度最大节点的子节点,权重信息为该关键词的兴趣度; 所述的关键词的兴趣特征向量是指m次检索中该关键词所包含的关键图的颜色、纹理、形状特征,如果关键图数量大于1,则取平均值;所述的节点的特征向量是该结点所包含的最新η幅关键图的颜色、纹理、形状特征平均值,η大于等于10 ;所述的相似度计算采用欧氏距离;所述的关键图为每次检索时输入的图像; 更新前三层,根据父节点是其子节点权重之和更新前三层节点的权重; 保护性检索; 首先加入保护规则:裁剪某一层次以下的结点,或者裁剪树型结构中的目录分支; 提交关键图进行检索,将最相似的I幅图像作为检索结果返回给用户; 其中图像相似度d的计算公式如公式(I) (2)所示,数值越小与关键图的相似度越高,对这些图像重新按值从小到大排序,从中选出排序靠前的图像作为检索结果返回给用户,d = S+α S(Ii) (I)
2.根据权利要求1所述的具有隐私分级可控的个性化图像检索方法,其特征在于所述的裁减方法具体为:计算兴趣模型中每个节点的暴露程度SI = log (Ι/p),其中,P为对应节点的权值;设定阈值λ ;如果Sl>x,0;≤ λ≤I,则裁剪该结点及以下的结点,裁剪后剩余分支中的权重和关键词依然保留并且包含被裁剪部分的权重信息;否则,不裁剪。
【文档编号】G06F21/60GK103678480SQ201310473542
【公开日】2014年3月26日 申请日期:2013年10月11日 优先权日:2013年10月11日
【发明者】张菁, 刁蒙蒙, 卓力, 曹嫣 申请人:北京工业大学