专利名称::基于规则声阵列和双目视觉的获取运动声场视频的方法
技术领域:
:本发明涉及一种基于规则声阵列和双目视觉的获取运动声场视频的方法,属于噪声分析和控制
技术领域:
。
背景技术:
:汽车、火车等复杂运动机械的噪声对环境影响很大。由于运动的原因,对这类(多声源)运动型噪声,要比较精确地获取其声场,将各个声源分辨出来,并准确定位是比较困难的。而声场的可视化可以使噪声源的定位分析更加实用,从而为进一步的噪声治理工作提供依据,对噪声测量以及治理工作都具有重要意义。在目前的研究中,声场可视化一般都是通过声场等高线图或三维声貌图与被测物体图片匹配显示后来实现。这一方法也延续到了运动声源声场的显示上,在很多学者的研究中,都是通过激光定位运动物体的位置,假定物体在测量过程中匀速运动,实现运动物体与测量信号的空间位置关系建立,然后人工手动将测量结果与运动物体的图片进行叠加,实现声源的定位和分析。在这种方法.下,运动声源的准确定位是比较困难和复杂的,需要很专业的技术人员才能完成,这将影响测量方法的推广应用。目前,世界上针对交通工具类的运动声源,对其声场进行测量分析研究的主要有声全息方法和阵列方法。全息法测量运动声场受多普勒效应影响很大,其工程实际应用受到了局限。与全息技术相比,阵列技术在运动声源识别研究中的应用更为广泛。双目立体视觉技术是一种比较成熟的技术,已经被广泛应用于机器人导航、智能车辆自动驾驶、三维测量和虚拟现实等领域
发明内容本发明的目的是提出一种基于规则声阵列和双目视觉的获取运动声场视频的方法,使得运动声源的定位分析更加准确,以实现对噪声的控制。本发明提出的基于规则声阵列和双目视觉的获取运动声场视频的方法,包括以下步骤(1)在被测运动物体侧面粘贴标志点,在与被测运动物体相距D处布置传声器阵列;(2)在与被测运动物体相距L处设置两台摄像机,两台摄像机之间的距离为d,对两台摄像机分别进行标定,获取第一台摄像机的内部参数摄像机主点坐标(W。,,V。,)、镜头焦距y;及像素的物理尺寸血,x办,,第一台摄像机的外部参数摄像机旋转矩阵《及平移向量^获取第二台摄像机的内部参数摄像机主点坐标(2,^2)、镜头焦距/2及像素的物理尺寸血2><办2,第二台摄像机的外部参数摄像机旋转矩阵及2及平移向量/2;由第一台摄像机和第二台摄像机的内外部参数,分别得到其投影矩阵为:<table>tableseeoriginaldocumentpage5</column></row><table>《(3)被测运动物体以速度y行驶,传声器阵列获取被测运动物体中声源的声压信号,第一台摄像机和第二台摄像机分别获取被测运动物体的动态视频,采用外触发的方式保证两路视频信号和声压信号三者同步;(4)分别将上述两台摄像机获取的动态视频拆解成图像;(5)在上述拆解后的视频图像中识别出被测运动物体上的标志点,对分别识别出的第一台摄像机和第二台摄像机图像上的标志点进行匹配,使被测运动物体上的同一标志点在两台接像机图像上的位置相对应,对匹配后的标志点进行三维重构,获取被测运动物体的空间位置;(6)对上述传声器阵列获取的声压信号进行波束成型处理,得到被测运动物体上s(s,77)处在r,至z2时间内的声场特征函数P,W为Z时刻第/个传声器接收到的信号声压,"/,s,7)为^时亥lJ面上任意点s(s,77)与第/个传声器之间的物理距离,c为声速,W为传声器数目,摄像机每帧图像间的时间间隔为Ar,设已经根据7;时刻的图像获得了被测运动物体的空间位置,取/,=7;-i厶r,/2=7;+iAr,遍历被测运动物体表面,得到被测运动物体的声场特征函数分布(7)将上述被测运动物体的声场特征函数分布图与上述任意一台摄像机的视频图像进行逐帧空间坐标叠加,并还原成动态视频图像。上述方法中,所述的传声器阵列的布置形式为一字、十字、X形或圆形规则传声器阵列中的任何一种。上述方法中,对所述的匹配后的标志点进行三维重构的方法为设被测运动物体上的标志点在第一台摄像机和第二台摄像机所获取图像上所成的像的齐次坐标分别为("p、,if,(A,v2,if,设K点在世界坐标系下的齐次坐标为(x,;r,z,if,则<formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula>其中,Zd、Zc2分别为K点在第一台摄像机和第二台摄像机的摄像机坐标系中沿摄像机光轴的坐标,将式中的Zd、Z"消去,得到关于X、Y、Z的四个线性方程<formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula>用最小二乘法求解上述方程组,获得被测运动物体上的标志点K在世界坐标系下的坐标。本发明提出的基于规则声阵列和双目视觉的获取运动声场视频的方法,引了入双目立体视觉技术,并其与规则声阵列结合,实现了声场可视化。利用双目立体视觉技术进行声场空间的三维测量和运动物体的自动追踪,建立声场空间与信号之间的时空关系,并自动将声场测量结果与摄像机的三维视频图像匹配在一起,将物体的运动过程与声场的动态变化过程以动态视频的效果直观显示出来,实现运动声源声场的视频可视化。从而使测量者在测量过程中就可以从视频中直接获取运动物体在运动过程中的噪声辐射状况,直观获得各个噪声源的位置。本发明方法使已有的声场可视化的方法更准确实用,使运动噪声的测量和识别变得容易,为进一步的声源识别和降噪工作提供更准确的依据。图1是使用本发明方法的场地布置示意图。图2是本发明中外触发方式示意图。图3是标志点匹配示意图。图4是三维重构原理图。图5是本发明中视频和声场数据的处理流程。图1中,l是被测运动物体,2是摄像机,3是传声器阵列,4是前置放大接口箱,5是信号采集仪,6是电脑,7是信号发生器。图2中,Sl是信号发生器产生的方波信号,S2和S3分别是两台摄像机的曝光信号示意波形,S4是传声器阵列开关信号示意波形。图3中,M1是第一台摄像机获取的被测运动物体的图像,M2是第二台摄像机获取的被测运动物体的图像,P1'、P2'、P3'、P4'分别为标志点P1,.P2,P3,P4在M1上所成的像,P1"、P2"、P3"、P4"分别为标志点P1,P2,P3,P4在M2上所成的像。图4中,;rl是第一台摄像机的成像平面,;r2是第二台摄像机的成像平面,0-XwYwZw是世界坐标系,ul01vl是第一台摄像机的图像坐标系,u202v2是第二台摄像机的图像坐标系,Ocl-XclYclZcl是第一台摄像机的摄像机坐标系,0c2-Xc2Yc2Zc2是第二台摄像机的摄像机坐标系,K点是被测运动物体上的一个标志点,kl、k2分别为K点在;rl和r2上所成的像。具体实施例方式以下结合附图详细介绍本发明提出的基于规则声阵列和双目视觉的获取运动声场视频的方法(1)如附图1所示,在被测运动物体1侧面粘贴330个标志点,在与被测运动物体相距D处布置传声器阵列,D的取值范围为46m。(2)如附图1所示,在与被测运动物体1相距L处布置两台摄像机2,L的取值范围为46m,两台摄像机之间的距离为d,d的取值范围为12m。两台摄像机的位置在不与传声器阵列3相互遮挡的情况下尽可能的靠近。对两台摄像机分别进行标定,获取第一台摄像机的内部参数摄像机主点(即摄像机光轴与成像平面的交点)坐标("。,,v。J、镜头焦距,及像素的物理尺寸血^办,,第一台摄像机的外部参数摄像机旋转矩阵^及平移向量6;获取第二台摄像机的内部参数摄像机主点(即摄像机光轴与成像平面的交点)坐标(W。"V。0、镜头焦距/2及像素的物理尺寸血2><办2,第二台摄像机的外部参数摄像机旋转矩阵^及平移向量^;由第一台摄像机、第二台摄像机的内外部参数,可以分别得到第一台摄像机和第二台摄像机的投影矩阵为<formula>formulaseeoriginaldocumentpage7</formula>(3)如附图1所示,由信号发生器7产生方波信号,触发摄像机2和传声器阵列3同时开始工作,并保证两路摄像机信号和声压信号同步。被测运动物体1以速度y行驶,传声器阵列3获取被测运动物体中声源的声压信号,两台摄像机2分别获取被测运动物体的动态视频。信号前置接口箱4对被测声源的声压信号进行放大,提高信噪比。信号采集仪5将经过前置接口箱4后的声压信号进行滤波放大,转化为数字信号。电脑6对声压信号和视频信号进行采集和处理。两路摄像机信号和声压信号同步方式如附图2所示,用方波信号Sl的每个上升沿触发两台摄像机进行拍摄,用方波信号Sl的第一个上升沿触发传声器阵列,使其开始工作。(4)分别将上述两台摄像机获取的动态视频拆解成图像。(5)在上述拆解后的视频图像中识别出被测运动物体上的标志点,对分别识别出的第一台摄像机和第二台摄像机图像上的标志点进行匹配,使被测运动物体上的同一标志点在两台摄像机所获图像上的位置相对应,如附图3所示。以标志点P1为例,即获取P1在M1上的像P1'的中心点的位置与P1在M2上的像P1"的中心点的位置,将它们配成一对。(5)对匹配后的标志点进行三维重构,获取被测运动物体的空间位置。如附图4所示,设被测运动物体上的标志点的中心点在两台摄像机所获取图像上所成的像的齐次坐标分别为(",,v,,iy,("2,v2,i)r,设K点在世界坐标系下的齐次坐标为(x,:r,z,if。则可以得到<formula>formulaseeoriginaldocumentpage8</formula>其中,Zd、Z^分别为K点在第一台摄像机和第二台摄像机的摄像机坐标系中沿摄像机光轴的坐标。将式中的Zd、Z^消去,可以得到关于X、Y、Z的四个线性方程<formula>formulaseeoriginaldocumentpage8</formula>用最小二乘法求解上述方程组,即可获得被测运动物体上的标志点K在世界坐标系下的坐标。(6)对上述传声器阵列获取的声压信号进行波束成型处理,得到被测运动物体上s(e,;7)处在^至^时间内的声场特征函数<K(e,;;X:2尸2其中,P("7)=+1>,[,+^^^、/=1Vc乂A(O为Z时刻第z'个传声器接收到的信号声压,r々,e,7)为f时刻面上任意点s(s,77)与第/个传声器之间的物理距离,c为声速,iV为传声器数目。摄像机每帧图像间的时间间隔为Ar,设已经根据2;时刻的图像获得了被测运动物体的空间位置,为了获取该时刻被测运动物体表面的声场特征函数分布图,取^=7;-|厶7\~=7;+|厶7\遍历被测运动物体表面,得到被测运动物体的声场特征函数分布图;根据被测运动物体表面声场特征函数分布图上各处声场特征函数的相对强弱就可以识别出运动物体侧面上各主要噪声源的位置。(7)将上述被测运动物体的声场特征函数分布图与上述任意一台摄像机的视频图像进行逐帧空间坐标叠加,并还原成动态视频图像。视频和声场数据的处理流程如附图5所示。权利要求1、一种基于规则声阵列和双目视觉的获取运动声场视频的方法,其特征在于该方法包括以下步骤(1)在被测运动物体侧面粘贴标志点,在与被测运动物体相距D处布置传声器阵列;(2)在与被测运动物体相距L处设置两台摄像机,两台摄像机之间的距离为d,对两台摄像机分别进行标定,获取第一台摄像机的内部参数摄像机主点坐标(u01,v01)、镜头焦距f1及像素的物理尺寸dx1×dy1,第一台摄像机的外部参数摄像机旋转矩阵R1及平移向量t1;获取第二台摄像机的内部参数摄像机主点坐标(u02,v02)、镜头焦距f2及像素的物理尺寸dx2×dy2,第二台摄像机的外部参数摄像机旋转矩阵R2及平移向量t2,由第一台摄像机和第二台摄像机的内、外部参数,分别得到第一台摄像机和第二台摄像机的投影矩阵为<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msub><mi>M</mi><mn>1</mn></msub><mo>=</mo><mtable><mtr><mtd><mrow><mfencedopen='['close=']'><mtable><mtr><mtd><msub><mi>f</mi><mn>1</mn></msub><mo>/</mo><msub><mi>dx</mi><mn>1</mn></msub></mtd><mtd><mn>0</mn></mtd><mtd><msub><mi>u</mi><mn>01</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>f</mi><mn>1</mn></msub><mo>/</mo><msub><mi>dy</mi><mn>1</mn></msub></mtd><mtd><msub><mi>v</mi><mn>01</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>0</mn></mtd></mtr></mtable></mfenced><mfencedopen='['close=']'><mtable><mtr><mtd><msub><mi>R</mi><mn>1</mn></msub></mtd><mtd><msub><mi>t</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></mtd></mtr></mtable><mo>=</mo><mtable><mtr><mtd><mrow><mfencedopen='['close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>1</mn></msubsup></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></mtd></mtr></mtable></mrow>]]></math></maths><mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mi>m</mi><mn>2</mn></msub><mo>=</mo><mfencedopen='['close=']'><mtable><mtr><mtd><msub><mi>f</mi><mn>2</mn></msub><mo>/</mo><msub><mi>dx</mi><mn>2</mn></msub></mtd><mtd><mn>0</mn></mtd><mtd><msub><mi>u</mi><mn>02</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>f</mi><mn>2</mn></msub><mo>/</mo><msub><mi>dy</mi><mn>2</mn></msub></mtd><mtd><msub><mi>v</mi><mn>02</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>0</mn></mtd></mtr></mtable></mfenced><mfencedopen='['close=']'><mtable><mtr><mtd><msub><mi>R</mi><mn>2</mn></msub></mtd><mtd><msub><mi>t</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>=</mo><mfencedopen='['close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math></maths>(3)被测运动物体以速度v行驶,传声器阵列获取被测运动物体中声源的声压信号,第一台摄像机和第二台摄像机分别获取被测运动物体的动态视频,采用外触发的方式保证两路视频信号和声压信号三者同步;(4)分别将上述第一台摄像机和第二台摄像机获取的动态视频拆解成图像;(5)在上述拆解后的视频图像中识别出被测运动物体上的标志点,对分别识别出的第一台摄像机和第二台摄像机图像上的标志点进行匹配,使被测运动物体上的同一标志点在两台摄像机图像上的位置相对应,对匹配后的标志点进行三维重构,获取被测运动物体的空间位置;(6)对上述传声器阵列获取的声压信号进行波束成型处理,得到被测运动物体上s(ε,η)处在t1至t2时间内的声场特征函数<mathsid="math0003"num="0003"><math><![CDATA[<mrow><msub><mi>W</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>ϵ</mi><mo>,</mo><mi>η</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mo>∫</mo><msub><mi>t</mi><mn>1</mn></msub><msub><mi>t</mi><mn>2</mn></msub></msubsup><msup><mi>P</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>ϵ</mi><mo>,</mo><mi>η</mi><mo>)</mo></mrow><mi>dt</mi><mo>,</mo></mrow>]]></math>id="icf0003"file="A2008101148850002C3.tif"wi="50"he="11"top="239"left="32"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中,<mathsid="math0004"num="0004"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>ϵ</mi><mo>,</mo><mi>η</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mfrac><mrow><msub><mi>r</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>ϵ</mi><mo>,</mo><mi>η</mi><mo>)</mo></mrow></mrow><mi>c</mi></mfrac><mo>)</mo></mrow></mrow>]]></math>id="icf0004"file="A2008101148850002C4.tif"wi="57"he="11"top="241"left="98"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>pi(t)为t时刻第i个传声器接收到的信号声压,ri(t,ε,η)为t时刻面上任意点s(ε,η)与第i个传声器之间的物理距离,c为声速,N为传声器数目,摄像机每帧图像间的时间间隔为ΔT,设根据T1时刻的图像获得了被测运动物体的空间位置,取<mathsid="math0005"num="0005"><math><![CDATA[<mrow><msub><mi>t</mi><mn>1</mn></msub><mo>=</mo><msub><mi>T</mi><mn>1</mn></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>ΔT</mi><mo>,</mo></mrow>]]></math>id="icf0005"file="A2008101148850003C1.tif"wi="23"he="9"top="35"left="148"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths><mathsid="math0006"num="0006"><math><![CDATA[<mrow><msub><mi>t</mi><mn>2</mn></msub><mo>=</mo><msub><mi>T</mi><mn>1</mn></msub><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>ΔT</mi><mo>,</mo></mrow>]]></math>id="icf0006"file="A2008101148850003C2.tif"wi="25"he="9"top="47"left="23"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>遍历被测运动物体表面,得到被测运动物体的声场特征函数分布图;(7)将上述被测运动物体的声场特征函数分布图与上述任意一台摄像机的视频图像进行逐帧空间坐标叠加,并还原成动态视频图像。2、如权利要求1所述的显示方法,其特征在于其中所述的传声器阵列的布置形式为一字、十字、x形或圆形规则传声器阵列中的任何一种。3、如权利要求l所述的方法,其特征在于其中对所述的匹配后的标志点进行三维重构的方法为设被测运动物体上的标志点在第一台摄像机和第二台摄像机所获取的图像上所成的像的齐次坐标分别为(",,v,,l)",("2,v2,l)F,设P点在世界坐标系下的齐次坐标为(U,Z,lf,则<formula>formulaseeoriginaldocumentpage3</formula>、Z二i1m12w13《《44w;3,<zc2V21=Af,Z1《《m'23《m222m223《《《m323i其中,Z^、Z^分别为P点在第一台摄像机和第二台摄像机的摄像机坐标系中沿摄像机光轴的坐标,将式中的Zd、Z。消去,得到关于X、Y、Z的四个线性方程(w丄w^-<)X+(,;2一m|2)y+(A/^—mj3)Z=m|4—z^m;4(《乂)Z+(,〗2-<)r+(v,m;3-《4)Z=<-vX4(V277^1一附!I)义+(V2W322—加l)r+(b77^—"^3)Z=一I^W^用最小二乘法求解上述方程组,获得被测运动物体上的标志点P在世界坐标系下的坐标。全文摘要本发明提出的基于规则声阵列和双目视觉的获取运动声场视频的方法,属于噪声分析和控制
技术领域:
。首先在被测运动物体粘贴标志点,布置传声器阵列和两台摄像机,对摄像机进行标定,得到投影矩阵;传声器阵列获取被测运动物体中声源的声压信号,摄像机获取被测运动物体的动态视频,将动态视频拆解成图像;在视频图像中识别出被测运动物体上的标志点,对匹配后的标志点进行三维重构,获取被测运动物体的空间位置;对声压信号进行波束成型处理,得到被测运动物体的声场特征函数分布图,将其视频图像进行逐帧空间坐标叠加,并还原成动态视频图像。本发明方法使运动噪声的测量和识别变得容易,为进一步的声源识别和降噪工作提供更准确的依据。文档编号G01S5/00GK101295017SQ20081011488公开日2008年10月29日申请日期2008年6月13日优先权日2008年6月13日发明者兵李,李克强,杨殿阁,罗禹贡,艺袁,连小珉,林邵,郑四发申请人:清华大学