一种数据位置的确定方法及装置的制造方法
【专利摘要】本发明实施例公开了一种数据位置的确定方法及装置。方法包括:接收采样图像以及采样图像中数据的矩形框四个顶点的实际坐标值;根据所述采样图像以及所述实际坐标值,训练用于确定所述数据位置的模型;接收待检测图像;根据训练好的所述模型和所述待检测图像,确定所述待检测图像中所述数据的位置。利用本发明实施例,可以减少计算机CPU和内存的占用。
【专利说明】
-种数据位置的确定方法及装置
技术领域
[0001] 本发明设及数据位置技术领域,特别设及一种数据位置的确定方法及装置。
【背景技术】
[0002] 当今多媒体时代,图像视频资源日益增长,在处理运些图像数据时,能快速地定位 到图像中感兴趣的数据显得尤为重要,比如图形类的数据衣物箱包等,或者文字类数据字 幕、弹幕等。
[0003] 目前大多数图像中数据位置确定的方法都是基于滑动窗或边缘信息来提取候选 区域,再利用预先训练好的分类器进行检测识别,获取得分值最高的矩形框作为最终区域, 或采用非极大值抑制算法融合多候选区域。但是运类方法需要首先得到数百个候选数据目 标来覆盖感兴趣数据目标所出现的位置,再对运些大量的区域处理,有时对于不同类别的 数据目标还需要训练特定的分类器,导致运算量很大,计算机CPU和内存的占用较大。
【发明内容】
[0004] 本发明实施例的目的在于提供一种数据位置的确定方法及装置,W减少计算机 CPU和内存的占用。
[0005] 为达到上述目的,本发明公开了一种数据位置的确定方法,技术方案如下:
[0006] 接收至少一幅采样图像W及采样图像中数据的矩形框四个顶点的实际坐标值;
[0007] 根据所述采样图像W及所述实际坐标值,训练用于确定数据位置的模型;
[000引接收待检测图像;
[0009] 根据训练好的所述模型和所述待检测图像,确定所述待检测图像中数据的位置。
[0010] 较佳的,所述模型为:
[0011] Alex化t网络结构模型。
[0012] 较佳的,所述根据所述采样图像W及所述实际坐标值,训练用于确定数据位置的 模型,包括:
[0013] 根据所述至少一幅采样图像W及所述模型,得到针对所述至少一幅采样图像中每 一幅采样图像的数据的矩形框四个顶点的输出坐标值;
[0014] 计算所述至少一幅采样图像中每一幅采样图像的输出坐标值与实际坐标值之间 的匹配距离;
[0015] 根据每一幅采样图像的匹配距离,计算所述至少一幅采样图像的匹配距离的平均 值;
[0016] 判断当前平均值与上次计算得到的平均值之差的绝对值是否大于预设口限阔值;
[0017] 如果是,根据当前所述模型的参数值W及深度网络学习技术,计算梯度值;根据所 述梯度值,调整所述模型的参数值;继续执行根据所述至少一幅采样图像W及所述模型,得 到针对所述至少一幅采样图像中每一幅采样图像的数据的矩形框四个顶点的输出坐标值 的操作步骤。
[0018] 较佳的,计算所述至少一幅采样图像中每一幅采样图像的输出坐标值与实际坐标 值之间的匹配距离,所采用的公式为:
[0019]
[0020] 其中,Fmatchd,g)为采样图像的输出坐标值1与实际坐标值g之间的匹配距离,n为 预设值,Ii为输出坐标值1的第i个元素,gi为实际坐标值g的第i个元素。
[0021] 较佳的,所述根据训练好的所述模型和所述待检测图像,确定所述待检测图像中 数据的位置,包括:
[0022] 根据所述待检测图像W及训练好的所述模型,得到针对所述待检测图像的数据的 矩形框四个顶点的输出坐标值;
[0023] 将所述输出坐标值构成的区域,确定为所述待检测图像中数据的位置。
[0024] 为达到上述目的,本发明还公开了一种数据位置的确定装置,包括:
[0025] 第一接收模块,用于接收至少一幅采样图像W及采样图像中数据的矩形框四个顶 点的实际坐标值;
[0026] 训练模块,用于根据所述采样图像W及所述实际坐标值,训练用于确定数据位置 的模型;
[0027] 第二接收模块,用于接收待检测图像;
[002引确定模块,用于根据训练好的所述模型和所述待检测图像,确定所述待检测图像 中数据的位置。
[0029] 较佳的,所述模型为:
[0030] Alex化t网络结构模型。
[0031 ]较佳的,所述训练模块包括:
[0032] 第一坐标输出单元,用于根据所述至少一幅采样图像W及所述模型,得到针对所 述至少一幅采样图像中每一幅采样图像的数据的矩形框四个顶点的输出坐标值;
[0033] 距离计算单元,用于计算所述至少一幅采样图像中每一幅采样图像的输出坐标值 与实际坐标值之间的匹配距离.
[0034] 均值计算单元,用于根据每一幅采样图像的匹配距离,计算所述至少一幅采样图 像的匹配距离的平均值;
[0035] 判断单元,用于判断当前平均值与上次计算得到的平均值之差的绝对值是否大于 预设口限阔值;
[0036] 参数调整单元,用于在所述判断单元判断结果为是的情况下,根据当前所述模型 的参数值W及深度网络学习技术,计算梯度值;根据所述梯度值,调整所述模型的参数值; 触发所述第一坐标输出单元。
[0037] 较佳的,所述距离计算单元中,计算所述至少一幅采样图像中每一幅采样图像的 输出坐标值与实际坐标值之间的匹配距离,所采用的公式为:
[00;3 引
[0039]其中,Fmatchd,g)为采样图像的输出坐标值1与实际坐标值g之间的匹配距离,n为 预设值,Ii为输出坐标值1的第i个元素,gi为实际坐标值g的第i个元素。
[0040] 较佳的,所述确定模块,包括:
[0041] 第二坐标输出单元,用于根据所述待检测图像W及训练好的所述模型,得到针对 所述待检测图像的数据的矩形框四个顶点的输出坐标值;
[0042] 位置确定单元,用于将所述输出坐标值构成的区域,确定为所述待检测图像中数 据的位置。
[0043] 由上述的技术方案可见,本发明实施例提供的数据位置的确定方法及装置,接收 至少一幅采样图像W及采样图像中数据的矩形框四个顶点的实际坐标值;根据所述采样图 像W及所述实际坐标值,训练用于确定数据位置的模型;接收待检测图像;根据训练好的所 述模型和所述待检测图像,确定所述待检测图像中数据的位置。
[0044] 可见,采用训练好的Alex化t网络结构模型,输入待检测图像,可W直接确定待检 测图像中数据的位置,不需要对每个数据类别单独训练模型,避免了繁杂的候选提取和分 类器训练的操作,减小了运算量,进而减少了计算机CPU和内存的占用。
[0045] 当然,实施本发明的任一产品或方法必不一定需要同时达到W上所述的所有优 点。
【附图说明】
[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些附图获得其他的附图。
[0047] 图1为本发明实施例提供的一种数据位置的确定方法的流程示意图;
[0048] 图2为本发明实施例提供的一种数据位置的确定装置的结构示意图。
【具体实施方式】
[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0050] 本发明实施例公开了一种数据位置的确定方法及装置,W下分别进行详细说明。
[0051] 参见图1,图1为本发明实施例提供的一种数据位置的确定方法的流程示意图,包 括如下步骤:
[0052] SlOl,接收至少一幅采样图像W及采样图像中数据的矩形框四个顶点的实际坐标 值;
[0053] 其中,所述数据可W为图形类的数据,例如衣物、箱包等等,或者文字类的数据,例 如字幕、弹幕等等。
[0054] 在一个具体实现方式中,可W随机抽取出10000张图片作为采样图像,并定义若干 个数据大类,例如五个数据大类:上衣、下装、裙装、箱包和鞋子。人工用矩形框标记出该大 类数据在图像中对应的位置,从而得到采样图像中数据的矩形框四个顶点的实际坐标值。
[0055] 需要强调的是,上述所给出的关于SlOl的具体实现方式仅仅作为示例,并不应该 构成对本发明实施例的限定。
[0056] S102,根据所述采样图像W及所述实际坐标值,训练用于确定所述数据位置的模 型;
[0057] 其中,所述模型为Alex化t网络结构模型(W下简称Alex化t模型),该模型比较简 单,层数较少,但效果显著,因此可W用少量的运算存储达到令人满意的分类精度。该模型 共有8层,其中前5层是卷积层(包括正则化,阔值化和池化等操作),后面3层是全连接层(其 输出可W直接作为输入图像的特征)。将标注数据位置的矩形框四个顶点的横纵坐标值(共 8个值)作为Ale曲et模型的输出值,用向量IGR8表示,例如1 = (1,1,1,3,2,3,2,1)表示数 据的矩形框四个顶点坐标分别为(1,1)、(1,3)、(2,3)、(2,1)。为保证算法对图像的尺度不 变性,需要根据图像的大小对输出值进行归一化(即除W采样图像的宽度和高度)。
[005引在一个具体实现方式中,AlexNet模型的训练参数设置为:批量大小设为256,初始 的网络学习率设为0.001,动量设为0.9,采用每步递减学习率的方法,步长设为10000。将随 机抽取的10000幅采样图像打乱顺序,每256幅采样图像作为一个整体输入AlexNet模型,得 到每一幅采样图像的数据的矩形框四个顶点的输出坐标值;计算256幅采样图像中每一幅 采样图像的输出坐标值与实际坐标值之间的匹配距离;根据每一幅采样图像的匹配距离, 计算256幅采样图像的匹配距离的平均值;判断当前平均值与上次计算得到的平均值之差 的绝对值是否大于预设口限阔值;如果是,根据当前所述模型的参数值W及深度网络学习 技术,计算梯度值;根据所述梯度值,调整Ale曲et模型的参数值。其中,深度网络学习属于 现有技术,在此不再寶述。
[0059] 在本步骤的具体实现方式中,训练过程总共迭代了80000轮,每轮迭代256次,一轮 迭代完成之后,调整更新一次Alex化t模型中前屯层网络的参数。最后两次的输出损失值即 匹配距离为0.053和0.050,预设口限值为0.0 l,相邻两次所述欧氏距离值的差值0.003小于 预设口限值,结束训练,得到训练好的AlexNet模型。
[0060] 其中,在将采样图像输入Ale曲et模型之前,为适应该模型的网络参数,需要对采 样图像进行缩放、裁剪。效果最优的做法是先对采样图像缩放到分辨率为256*256,然后裁 剪出分辨率为224*224的图像中屯、部分,将裁剪后的图像输入到Alex化t模型中。当然,对采 样图像只缩放或只裁剪也可W应用于本发明实施例,前提是处理后的图像尺寸均为正方 形,且保证数据的矩形框完整地被包含在处理后的采样图像中。
[0061] 其中,可W定义目标函数定量表示匹配距离,两者体现的意义一致,用来定量衡量 采样图像中数据的矩形框四个顶点的坐标的匹配程度,在实际应用中也可W使用欧氏距离 来定量衡量。匹配距离值越小,说明匹配程度越高。目标函数公式如下:
[0062]
[0063] 其中,Fmatchd,g)为采样图像的输出坐标值1与实际坐标值g之间的匹配距离,n为 预设值,Ii为输出坐标值1的第i个元素,gi为实际坐标值g的第i个元素。在本步骤的具体实 现方式中,n设定为1/2。
[0064] 在本步骤的具体实现方式中,在Alex化t模型训练的迭代过程中,也可W用观察判 断的方法结束训练。在进行大量迭代之后,训练后期的匹配距离即目标函数值Fmatch会趋于 在极小区域范围例如0.04-0.06内微弱震荡,大小不会出现明显变化,但也有可能出现某相 邻两次的欧氏距离值的差值例如0.015大于预设口限值0.01的个别情况。可W根据具体的 实施方式,在欧式距离值最终趋于不变时,自行结束训练,训练好的Alex化t模型W达到可 用于确定所述数据的位置为准。
[0065] 需要强调的是,上述所给出的关于S102的具体实现方式仅仅作为示例,并不应该 构成对本发明实施例的限定。
[0066] S103,接收待检测图像;
[0067] 其中,计算机接收的待检测图像中包含完整的数据。数据可W为图形类的数据,例 如衣物、箱包等等,或者文字类的数据,例如字幕、弹幕等等。
[0068] S104,根据训练好的所述模型和所述待检测图像,确定所述待检测图像中所述数 据的位置。
[0069] 在一个具体实现方式中,将一幅待检测图像输入训练好的AlexNet模型中去, AlexNet模型输出运一幅待检测图像的数据的矩形框四个顶点的坐标值,用向量L表示为L =(0.1,0.3,0.1,0.5,0.2,0.5,0.2,0.3),从而得到数据的矩形框的四个顶点坐标分别 (0.1,0.3)、(0.1,0.5)、(0.2,0.5)、(0.2,0.3);将待检测图像的数据的矩形框四个顶点构 成的矩形框区域,确定为所述待检测图像中数据的位置。
[0070] 其中,在将待检测图像输入AlexNet模型之前,按照S102中对采样图像处理所采用 的同种方式对待检测图像进行处理,例如对待检测图像进行裁剪、缩放等。
[0071] 其中,根据S102中对输出值向量是否进行归一化,判断是否需要对Alex化t模型的 输出坐标值进行处理。在进行归一化的情况下,AlexNet模型输出的运一幅待检测图像的数 据的矩形框四个顶点的坐标值需要乘W待检测图像的宽度和高度,得到数据的矩形框四个 顶点的绝对坐标值。例如在本步骤的具体实现方式中,待检测图像的宽度为10,高度为10, 则得到数据的矩形框的四个顶点坐标分别(1,3)、(1,5)、(2,5)、(2,3)。根据得到的四个绝 对坐标值,确定数据的矩形框的位置,从而确定待检测图像中数据的位置。
[0072] 需要强调的是,上述所给出的关于S104的具体实现方式仅仅作为示例,并不应该 构成对本发明实施例的限定。
[0073] 可见,采用训练好的Alex化t网络结构模型,输入待检测图像,可W直接确定待检 测图像中数据的位置,不需要对每个数据类别单独训练模型,避免了繁杂的候选提取和分 类器训练的操作,减小了运算量,进而减少了计算机CPU和内存的占用。
[0074] 参见图2,图2为本发明实施例提供的一种数据位置的确定装置的结构示意图,与 图1所示的流程相对应,包括第一接收模块201、训练模块202、第二接收模块203、确定模块 204。
[0075] 其中,第一接收模块201,用于接收至少一幅采样图像W及采样图像中数据的矩形 框四个顶点的实际坐标值。
[0076] 训练模块202,用于根据所述采样图像W及所述实际坐标值,训练用于确定数据位 置的模型。
[0077] 第二接收模块203,用于接收待检测图像。
[0078] 确定模块204,用于根据训练好的所述模型和所述待检测图像,确定所述待检测图 像中数据的位置。
[0079] 具体的,所述模型为:
[0080] Alex化t网络结构模型。
[0081 ]具体的,所述训练模块包括:
[0082] 第一坐标输出单元,用于根据所述至少一幅采样图像W及所述模型,得到针对所 述至少一幅采样图像中每一幅采样图像的数据的矩形框四个顶点的输出坐标值;
[0083] 距离计算单元,用于计算所述至少一幅采样图像中每一幅采样图像的输出坐标值 与实际坐标值之间的匹配距离.
[0084] 均值计算单元,用于根据每一幅采样图像的匹配距离,计算所述至少一幅采样图 像的匹配距离的平均值;
[0085] 判断单元,用于判断当前平均值与上次计算得到的平均值之差的绝对值是否大于 预设口限阔值;
[0086] 参数调整单元,用于在所述判断单元判断结果为是的情况下,根据当前所述模型 的参数值W及深度网络学习技术,计算梯度值;根据所述梯度值,调整所述模型的参数值; 触发所述第一坐标输出单元。
[0087] 具体的,所述距离计算单元中,计算所述至少一幅采样图像中每一幅采样图像的 输出坐标值与实际坐标值之间的匹配距离,所采用的公式为:
[008引
[0089] 其中,Fmatch (1,
g)为米祥阁像的输出坐标值1与实际坐标值g之间的匹配距离,n为 预设值,Ii为输出坐标值1的第i个元素,gi为实际坐标值g的第i个元素。
[0090] 具体的,所述确定模块,包括:
[0091] 第二坐标输出单元,用于根据所述待检测图像W及训练好的所述模型,得到针对 所述待检测图像的数据的矩形框四个顶点的输出坐标值;
[0092] 位置确定单元,用于将所述输出坐标值构成的区域,确定为所述待检测图像中数 据的位置。
[0093] 可见,采用训练好的Alex化t网络结构模型,输入待检测图像,可W直接确定待检 测图像中数据的位置,不需要对每个数据类别单独训练模型,避免了繁杂的候选提取和分 类器训练的操作,减小了运算量,进而减少了计算机CPU和内存的占用。
[0094] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示运些实体或操作之间存 在任何运种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为运种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0095] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实 施例而言,由于其基本相似于方法实施例,所W描述的比较简单,相关之处参见方法实施例 的部分说明即可。
[0096] 本领域普通技术人员可W理解实现上述方法实施方式中的全部或部分步骤是可 W通过程序来指令相关的硬件来完成,所述的程序可W存储于计算机可读取存储介质中, 运里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
[0097] W上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种数据位置的确定方法,其特征在于,包括: 接收至少一幅采样图像以及采样图像中数据的矩形框四个顶点的实际坐标值; 根据所述采样图像以及所述实际坐标值,训练用于确定数据位置的模型; 接收待检测图像; 根据训练好的所述模型和所述待检测图像,确定所述待检测图像中数据的位置。2. 根据权利要求1所述的方法,其特征在于,所述模型为: AlexNet网络结构模型。3. 根据权利要求2所述的方法,其特征在于,所述根据所述采样图像以及所述实际坐标 值,训练用于确定数据位置的模型,包括: 根据所述至少一幅采样图像以及所述模型,得到针对所述至少一幅采样图像中每一幅 采样图像的数据的矩形框四个顶点的输出坐标值; 计算所述至少一幅采样图像中每一幅采样图像的输出坐标值与实际坐标值之间的匹 配距离; 根据每一幅采样图像的匹配距离,计算所述至少一幅采样图像的匹配距离的平均值; 判断当前平均值与上次计算得到的平均值之差的绝对值是否大于预设门限阈值; 如果是,根据当前所述模型的参数值以及深度网络学习技术,计算梯度值;根据所述梯 度值,调整所述模型的参数值;继续执行根据所述至少一幅采样图像以及所述模型,得到针 对所述至少一幅采样图像中每一幅采样图像的数据的矩形框四个顶点的输出坐标值的操 作步骤。4. 根据权利要求3所述的方法,其特征在于,计算所述至少一幅采样图像中每一幅采样 图像的输出坐标值与实际坐标值之间的匹配距离,所采用的公式为:其中,Fmatch(l,g)为采样图像的输出坐标值1与实际坐标值g之间的匹配距离,η为预设 值,I1为输出坐标值1的第i个元素,gl为实际坐标值g的第i个元素。5. 根据权利要求1至4任一项所述的方法,其特征在于,所述根据训练好的所述模型和 所述待检测图像,确定所述待检测图像中数据的位置,包括: 根据所述待检测图像以及训练好的所述模型,得到针对所述待检测图像的数据的矩形 框四个顶点的输出坐标值; 将所述输出坐标值构成的区域,确定为所述待检测图像中数据的位置。6. -种数据位置的确定装置,其特征在于,所述装置包括: 第一接收模块,用于接收至少一幅采样图像以及采样图像中数据的矩形框四个顶点的 实际坐标值; 训练模块,用于根据所述采样图像以及所述实际坐标值,训练用于确定数据位置的模 型; 第二接收模块,用于接收待检测图像; 确定模块,用于根据训练好的所述模型和所述待检测图像,确定所述待检测图像中数 据的位置。7. 根据权利要求6所述的装置,其特征在于,所述模型为: AlexNet网络结构模型。8. 根据权利要求7所述的装置,其特征在于,所述训练模块,包括: 第一坐标输出单元,用于根据所述至少一幅采样图像以及所述模型,得到针对所述至 少一幅采样图像中每一幅采样图像的数据的矩形框四个顶点的输出坐标值; 距离计算单元,用于计算所述至少一幅采样图像中每一幅采样图像的输出坐标值与实 际坐标值之间的匹配距离; 均值计算单元,用于根据每一幅采样图像的匹配距离,计算所述至少一幅采样图像的 匹配距离的平均值; 判断单元,用于判断当前平均值与上次计算得到的平均值之差的绝对值是否大于预设 门限阈值; 参数调整单元,用于在所述判断单元判断结果为是的情况下,根据当前所述模型的参 数值以及深度网络学习技术,计算梯度值;根据所述梯度值,调整所述模型的参数值;触发 所述第一坐标输出单元。9. 根据权利要求8所述的装置,其特征在于,所述距离计算单元,所采用的公式为:其中,Fmatch(l,g)为采样图像的输出坐标值1与实际坐标值g之间的匹配距离,η为预设 值,I1为输出坐标值1的第i个元素,gl为实际坐标值g的第i个元素。10. 根据权利要求6至9任一项所述的装置,其特征在于,所述确定模块,包括: 第二坐标输出单元,用于根据所述待检测图像以及训练好的所述模型,得到针对所述 待检测图像的数据的矩形框四个顶点的输出坐标值; 位置确定单元,用于将所述输出坐标值构成的区域,确定为所述待检测图像中数据的 位置。
【文档编号】G06K9/32GK106022295SQ201610379844
【公开日】2016年10月12日
【申请日】2016年5月31日
【发明人】李甫, 兰细鹏, 朱宏吉
【申请人】北京奇艺世纪科技有限公司