视频通讯方法、装置及系统的利记博彩app

文档序号:7916121阅读:131来源:国知局
专利名称:视频通讯方法、装置及系统的利记博彩app
技术领域
本发明涉及3见频通讯领域,特别涉及一种^L频通讯方法,以及采用该一见频 通讯方法的装置和系统。
背景技术
随着通讯技术的不断发展,视频通讯技术已经得到较为广泛的运用,例如: 视频电话、视频会议等均运用了视频通讯技术。目前的各种视频通讯应用主要 采用传统的二维图像或^f见频。
目前对于图像内容的目标提取,主要采用Chroma key (色度编码)方法通 过颜色分割提取出视频中的前景目标。在视频通讯中,将提取出的前景目标与 其它远端视频合成从而增加真实感。例如将视频中的人(前景目标)和远端 的幻灯片讲稿合成。但是Chroma key方法存在如下缺陷
1、 Chroma key方法要求被分割视频的背景为采用蓝色、绿色或其它单一颜 色,这样才能实现前景目标和背景的分割,并且要求前景中不能出现背景中的 颜色,由于该方法背景和前景的颜色要求严格,使用不方便。
.2、 Chroma key方法仅能区分出前景和背景,而不能将场景内容分成更多的 层次,无法实现前景中部分目标的替换,如在会议场景中,人的前方可能存在 桌子,如果将对方的桌子替换成本地的桌子,则可以增加真实感。
3、该技术仅实现了二维视频内容的替换,无法使用户体验到场景的深度, 缺乏真实感。
上述二维图像或视频只能表现出景物的内容,不能反映出景物的远近、位 置等深度信息。
' 人类习惯使用两只眼睛来观察世界,由于双目视差的存在,使得观察到的 景物具有较好的远近、位置感知,能够体现出景物的立体感。立体视频技术基 于双目视差原理,通过给人的左右眼显示略有差异的场景内容,从而使人获得 场景的纵深感和层次感。
为了增加^L频通讯的真实感,现有技术运用立体^见频技术,并对通讯双方场景的特别装饰,^使用户感觉通讯双方处于同一场景中,以增加真实感。例如: 将通讯双方的室内环境布置成一样的,这样在通讯过程中,用户看到^L频中的 对方,就像对方就处在和自己一样的场景中,但该方法应用范围受到双方环境 布置的限制。

发明内容
本发明的实施例4是供一种一见频通讯方法、设备及系统,不受通讯双方的环 境布置的限制,增加通讯双方在通讯过程中的真实感。 本发明的实施例采用如下技术方案 , 一种视频预处理方法,包括 获取本地场景内容及其深度值;
根据本地场景内容的深度值从本地场景内容中分割出本地目标内容。 一种视频预处理装置,包括
信息获取模块,用于获取本地场景内容及其深度值; 分割模块,用于根据本地场景内容深度值,从本地场景内容中分割出本地 目标内容。
一种视频接收方法,包括 接收到远端发送的目标内容及其深度值; 获取本地的背景内容和背景内容的深度值; 根据深度值将远端目标内容和本地背景内容合成场景内容。 一种视频接收装置,包括
传输接口模块,用于接收远端发送的目标内容及其深度值; 提取模块,用于获取本地的背景内容及其深度值;
合成模块,用于根据深度值将远端目标内容和本地背景内容合成场景内容。 一种视频通讯系统,包括发送端和接收端
所述发送端,用于获取发送端的场景内容及其深度值,根据发送端的场景 内容深度值,,人发送端的场景内容中分割出发送端的目标内容,并将所述发送 端的目标内容及其深度值发送到接收端;
所述接收端用于接收发送端发送的目标内容及其深度值,并获取接收端的背景内容及其深度值,根据深度值将发送端的目标内容和接收端的背景内容合 成场景内容。"
由上述技术方案所描述的本发明实施例,在^f见频通讯过程中,本地显示的 画面需要通过本地的背景内容和远端的目标内容合成,4吏得用户看到画面中的 背景和自己当前所处的场景完全相同,就像是通讯双方所处的环境是一样的, 能够增加用户通讯过程中的真实感。并且由于本实施例中并不需要对通讯双方 的场景进行特殊布置,允许通讯双方所处的环境不同,也不需要将背景换成单 一颜色,故而在实施是本发明实施例时,不会受到通讯双方环境的限制,即可 增加通讯过程中的真实感。


图1为本发明第一实施例视频预处理方法的流程图2为本发明第一实施例视频预处理装置的框图3为本发明第一实施例视频接收方法的流程图4为本发明第一实施例视频接收装置的框图5为本发明第一实施例视频通讯设备的原理图-6为本发明第二实施例视频通讯设备的原理图
图7为本发明第二实施例中采用的立体摄像机的原理图8为本发明第二实施例中合成场景内容过程的示意图9为本发明第三实施例视频通讯流程图IO为本发明第三实施例视频通讯系统的结构图。
具体实施例方式
本发明实施例将本地的背景内容和远端的目标内容合成一个画面进行显 示,使得通讯双方不需要对场景进行特殊布置,即可让画面中的场景和自身所 处场景相同,增加通讯过程中的真实感。下面结合附图对本发明视频通讯方法、 装置及设备的实施例进行详细描述。
实施例1:
本实施例提供一种视频预处理方法,如图l所示,该视频预处理方法包括如下步骤
101 、通过深度摄像机或者立体摄像才几来获取本地场景内容及其深度值。
102、 由本地场景内容的深度值可以将本地场景内容分成多个层次,这样就 可以将本地目标内容所述的层次分割出来,即/人本地场景内容中分割出本地目 辟内容。
103、 将分割出的本地目标内容,以及本地目标内容对应的深度值发送到远 端, 一般需要发送到通讯的对端。
本实施例中主要通过步骤101和步骤102完成对图像的预处理,步骤103 是一个将预处理内容发送出去的步骤,可以省略。
对应于上述视频预处理方法,本实施例还提供一种^L频预处理装置,如图2 所示,该视频预处理装置包括信息获取模块21、分割模块22和发送模块23。
其中,信息获取模块21用于获取本地场景内容及其深度值,所述信息获取 模块可以通过'深度摄像机或者立体摄像机来实现,其中的深度摄像机釆用红外 技术获取图像的深度,而立体摄像机采用双摄像头来获取图像的深度。得到本 地场景内容的深度值后,就可以将本地场景内容分成多个层次,分割模块22, 用于依据本地场景内容深度值,从本地场景内容中分割出本地目标内容。发送 模块23,用于将所述本地目标内容及其深度值发送到远端。
该视频预处理装置中主要通过信息获取模块21和分割模块22完成视频预 处理,其中的,发送模块2 3可以省略。
为了能够完成-见频通讯,本实施例还提供一种与上述^f见频预处理方法对应 的视频接收方法,如图3所示,该视频接收方法包括如下步骤
301、 接收远端发送的目标内容及其深度值。
302、 获取本地的背景内容和背景内容的深度^f直。
303、 根据深度值的不同,确定本地背景内容和远端目标内容的遮挡关系, 一般为深度值小的像素挡住深度值大的像素,这样即可根据深度值的关系将远 端目标内容和本地背景内容合成场景内容。
对应于上述视频接收方法,本实施例还提供一种视频接收装置,如图4所 示,该视频接收装置包括传输接口模块41、提取模块42和合成模块43。
其中,传输接口模块41用于接收远端发送的目标内容及其深度值;提取模块42用于获取本地的背景内容及其深度值;合成模块43,用于根据深度值的关 系将远端目标内容和本地背景内容合成场景内容, 一般情况下是深度值小的像 素挡住深度值大的像素;最后通过显示器等设备显示合成后的场景内容。
如图5所示,本发明实施例还提供一种视频通讯设备,具体包括信息获 取模块51、分割模块52、传输接口模块53、提取模块54和合成模块55。
其中,信息获取模块51用于获取本地场景内容及其深度值,所述信息获取 模块51可以通过深度摄像机或者立体摄像机来实现,其中的深度摄像机采用红 外技术获取图像的深度,而立体摄像机采用双摄像头来获取图像的深度。分割 模块52,用于依据本地场景内容深度值,从本地场景内容中分割出本地目标内 容。传输接口模块53,用于将所述本地目标内容及其深度值发送到远端。
所述传输接口模块5 3还用于接收远端发送的目标内容及其深度值,提取模 块54用于获取本地的背景内容及其深度值;合成模块55,用于根据深度值的关 系将远端目标内容和本地背景内容合成场景内容, 一般情况下是深度值小的像 素挡住深度值大的像素;最后通过显示模块显示合成后的场景内容。
其中本地的背景内容可以为分割模块54分割出本地目标内容后的剩余内 冬,也可以通过另 一个摄像机获取本地目标对面的背景内容及其深度值。
如果让本实施例中的视频预处理装置和视频接收装置之间进行通讯,比方 说均接入到同一个网络,这样就够成一个视频通讯系统,该系统的发送端包括 图2的视频预处理装置,接收端包括图4中的视频接收装置。
实施例2:
本实施例提供一种^见频通讯设备,该设备将本地场景内容中的本地目标内 容,以及本地目标内容对应的深度值发送到对端设备,对端设备在接收到本地 目标内容后,将所述本地的目标内容和对端的背景合成一幅场景,并显示给对 端的用户。速样可以确保对端的用户所看到的场景和自身所处的场景完全一样, 比较具有临场感和真实感。本地的视频通讯设备在接收到远端的目标内容后, 将远端目标内容和本地背景内容合成一幅场景,并显示给本地的用户,以提高 本地用户在通讯过程中的临场感和真实感。
如图6所示,该视频通讯设备主要包括信息获取模块61、分割模块62、 编码模块63、传输接口模块64、解码模块65、合成模块66和显示模块67。其中,信息获取模块61,用于实现对本地场景内容的拍摄,以及本地场景 内容对应深度值的计算,或者直接获取本地场景内容对应深度值;分割模块62, 用于根据深度值从本地场景内容中分割出本地目标内容;编码模块63,用于对 分割出的本地目标内容及其对应的深度值进行编码;传输接口模块64,用来发 送本地目标内容及其深度值,或者接收远端发送的目标内容及其深度值;解码 模块65,用于实现对接收到的远端目标内容及其深度值的解码;合成模块66, 用于对解码得到的远端目标内容与本地背景内容融合,才艮据对应的深度值生成 立体视图,其中的本地背景内容可以是本地场景内容中分割出本地目标内容后 的剩余内容,也可以是采用另一组摄像机拍摄的本地目标对面的场景内容;显 示模块67,用于实现对和成图像的显示,可以是立体显示设备或普通二维显示 设备,如果是立体显示设备,则需要重构一幅另一个视点的二维图像。
下面分别对本实施例视频通讯设备中的各个模块做详细介绍。
信息获取4莫块61可以有以下两种实现方式 一、采用深度摄像机同时得到 本地场景内容及其深度值;二、采用多台摄像机拍摄本地场景内容,通过立体 图像匹配方法得到对应的深度值。
深度摄像机(Depth Camera)是一种新型摄像机,深度摄像机可以在拍摄 RGB彩色图像的同时获取彩色图像中每个像素对应的深度值。目前的深度摄^^L 主要采用红外方式深度值。
通过立体图像匹配方法得到对应的深度值的方法,要求在图像采集时采用 两台或两台以上摄像机拍摄场景,得到场景不同角度的多幅图像,通过对图像 进行匹配,可以获得场景在不同图像上的视差,根据视差和摄^^几的内外参数, 即可计算得到图像中每个像素对应的深度值。以下将以两台摄像机为例对图像 匹配方式获取深度值进行说明。
如图7所示为水平放置的两台平行摄像机成像示意图,其中01和02分别 为两个摄像机光心,其距离为B,点A到摄像机的垂直点0的距离为Z (即点A 的深度),Al和A2分别点A在两个摄像机的成像点。
A101/ =丄
由三角形A1 01 01'和三角形A 01 C相似可得 C01Z ;A202' = _^
由三角形A2 02 01'和三角形A 02 C相似可得 C02 Z ;
故推出两个成{象点的#见差为d=A101' -A202' =f * (C01-C02) /Z=f *B/Z。 所以,可以得到点A的深度值Z-"B/d。
由于f已知,B可以测量出来,d可以通过图^^匹配的方法计算得到,所以, 采用两台摄像机可以获取到场景中每个点对应的深度值。
通过立体摄像机来获取深度信息包括找到场景中某一点在多幅图像中对 应的成像点,然后再冲艮据该点在多幅图像中坐标求出其深度值。找到场景中某 一点在木同图像中对应成像点的过程由图像匹配完成。目前的图像匹配技术主 要包括基于窗口的匹配、基于特征的匹配和动态规划法等。
其中,基于窗口的匹配和动态规划法都采用了基于灰度的匹配算法。基于 灰度的算法是将其中一个图像分割成多个小的子区域,以其灰度值作为模版在 其它图像中找到和其最相似灰度值分布的子区域,如果两个子区域满足灰度值 分布的相似性要求,我们可以认为子区域中的点是匹配的,即这两个子区域的 成像点是场景中同一点的成像。在匹配过程中,通常使用相关函数衡量两个区 域的相似性。
基于特征的匹配没有直接利用图像的灰度,而是利用由图像灰度信息导出 的特征进行匹配,相比利用简单的亮度和灰度变化信息更加稳定。匹配特征可 以认为是潜在的能够描述场景3D结构重要特征,如边缘和边缘的交点(角点)。 基于特征的匹配一般先得到稀疏的深度信息图,然后利用内插值等方法得到图 像的密集深度信息图。
分割模块62根据本地场景内容及其对应的深度值,对图像进行分割得到本 地场景中的本地目标内容。分割模块62可以通过查找单元621和分割单元622 来实现,查找单元621,用于查找本地目标内容在本地场景内容中出现的区域, 分割单元622 用于在本地场景内容中对本地目标内容的区域进行准确的边缘轮 廓才是取,分割得到本地目标内容和其它本地背景内容。
一般来说,本地目标内容在本地场景中出现的区域,可以由本地用户估计本地目标相对才聂像才几的位置后,设定本地目标内容出现的深度值范围,在后续 的视频处理中,由查找单元在该深度值范围内查找目标内容出现的区域。
如果需要查找的本地目标内容为 一个人物形象,那么可以采用现有的人脸
识别技术,通过人脸识别单元623从本地场景内容中自动识别出人脸图像出现 的位置,然后由查找单元621在本地场景内容的深度值中查找所述人脸图像位 置对应的深度值,然后根据查找到的深度值确定本地目标内容深度值的范围, 并根据所述深度值的范围确定本地目标内容在场景内容中的区域。从而确定人 物目标在场景中出现的深度范围。
由于深度值适合和彩色图^!^目对应的,根据深度值分割出的人物区域和从 彩色图像中的人物区域相对应。得到的彩色图像的本地目标内容及其深度值后 将被发送到编码模块63,编码模块63对其编码后通过传输接口模块64发送到 远端。
由于从提取到的本地目标内容的大小不一样,需要将这些本地目标内容调 整到同 一大小, 一般是将这些本地目标内容调整到与本地场景内容一样的大小, 从而对每一帧得到相同大小的待编码图像,便于编码。这种调整不会对本地目 标内容本身进行缩放,只是改变了本地目标内容所使用画布的大小。对于调整 大小后出现的空白区域,可以采用0值填充。
本实施例中的编码^^莫块63对分割出来的的本地目标内容及其深度值进行编 码。相比单通道的二维-见频,立体视频具有大得多的数据量双目立体^f见频具 有两个数据通道。视频数据的增加给其存储和传输都带来了困难。目前立体视 频编码主要也可以分为两类基于块的编码和基于对象的编码。在立体图像的 的编码中,除了帧内预测和帧间预测消除空域和时域上的数据冗余度外,还必 须消除多通ii图像之间的空域数据冗余性。视差(Parallax)估计与补偿是立 体视频编码中的一项关键技术,用于消除多通道图像间的空域冗余度。视差估 计补偿的核心是找到两幅(或多幅)图像间的相关性。此处的立体视频编码内 容包括彩色图像及其对应的深度值,可以采用分层编码,即将彩色图像混合编 码放入基本层,深度值混合编码后放入增强层。本实施例中的传输接口模块64,用于发送编码后本地目标内容及其深度值,
并接收远端传输的编码后的远端目标内容及其深度值,送到送到解码模块进行
解码处理。本实施例中的传输接口模块64可以是能够实现传输的各种有线或无 线接口,例如宽带接口,蓝牙接口、红外接口或者采用手机的移动通信网的 接入技术。本实施例中传输接口模块只需要传输其中的本地目标及其深度值, 相对于原有的本地场景内容而言,其数据量有所减少,可以减小数据传输时的 带宽占用率
本实施例视频通讯设备的传输接口模块64接收到远端目标内容及其深度值 后,需要进行处理才能显示。
解码模块6 5用于对接收的远端数据进行解码,得到远端的目标内容对应的 深度值"
合成模块66,用于根据深度值对解码得到的远端目标内容与本地背景内容 进行融合,得到合成的远端目标内容与本地背景融合后的彩色图像,以及对应 的深度值,其中本地背景内容由提取模块69完成。合成过程中先要根据远端目 标内容的深度值与本地背景内容的深度值确定遮挡关系,然后按照遮挡关系合 成对应彩色图像内容。当显示模块67为三维立体显示设备,需进一步根据合成 彩色图像内容和对应的深度值重构另 一视点的虛拟图像,故而本实施例中还可 以包括视图重构模块68,用于对合成后的图像内容进行视图重构,生成一个虛 拟视点图像,该虚拟视点图像和合成彩色图像即构成立体视图,发送到三维立 体显示设备实现立体显示。
如图8所示,给出了接收到的远端目标内容(人物),并示意出该远端目标 内容的深度,以及本地采用深度摄^f"几方式获取的本地背景内容(树和桌子), 并示意出该本地背景内容的深度,然后根据其中的深度关系进行合成,得到合 成的场景。由于获得了远端目标内容和本地背景内容相对摄像机的距离,可以 将远端人物插入到本地的桌子和树之间。
为了能够让合成的图像更加逼真,需要解决如下问题 U )远端目标内容的缩放问题。为了使远端人物与本地背景内容完美融合,可能需要通过缩放单元661调整远端目标内容相对摄像机的位置,这时需要同 时对远端目标内容大小进行缩放。当需要把远端目标内容拉到更近的距离时,
即减小豕度值时,需要对远端目标内容进行放大;当把远端目标内容安排在更
远的距离时,即增大深度值时,需要对其远端目标内容进行缩小。由于远端目 标内容是单个目标,其深度变化的范围有限,在进行图像缩放时可以将透视关 系的缩放筒化为与其深度一致的线性缩放。
(2 )远端目标内容和本地背景内容之间的相互遮挡问题。在对远端目标内 容与本地背景内容融合时,通过合成单元662需要考虑其相互遮挡问题。遮挡 关系可以由深度值确定,当像素点的水平和垂直位置重合时,深度值小的像素 点遮挡深度值大的点(近景遮挡远景)。
(3)空洞填充问题。在去除了本地目标内容后得到的本地背景内容可能存 在空洞,使其与远端目标内容融合后仍可能存在空洞。在此有两种解决方式
第一种为使用另一组摄像机采集拍摄本地目标对面的场景内容, 一般为人 所看见的场景内容,在合成时,采用该场景内容直接和远端目标内容合成,该 方式效果较好,即人所看见的背景与远端人物融合,由于直接使用对面的场景, 不存在空洞填补问题,但是需要在视频通讯的每一端增加一组摄像机。
另 一种解决方案为使用剔除本地目标内容后剩下的本地背景内容,对于可 能出现的空洞,采用边缘像素填充的方法进行填充。
当本实,例视频通讯设备采用三维立体显示设备时,并且显示设备仅支持 左右图像输入方式显示时,需要重构另一幅图像,从而实现立体显示。有些自 动立体显示器支持一幅二维彩色图像及其对应的深度值进行三维立体显示,这 样就不需要重构另一幅图像了,而是由自动立体显示器自身完成另一幅图像的 重构,并且在重构过程中完成相应的空洞填充,如philips的立体显示器。
视图重构也称为虚拟视点图像合成, 一般指从模型或不同角度的图像重构 其它视角的图像。本实施例通过视图重构模块68来实现,当已知图像的深度时, 可以根据以下公式计算虚拟视点与已知视图之间的视差
d=A10r -A202' =f * (C01-C02) /Z=f *B/Z。其宁,d为虚拟视点视图与已知视图之间的视差,f为摄像机的焦距,B为
虛拟视点与原摄像点之间的距离,z为图像的深度。
当基于合成图像及其深度重构其右边的图像时,右边图像中某条扫描线、 处像素的颜色由左图像(合成图像)中对应扫描线A处像素的颜色确定,其中A
的坐标由下《确定
在根据以上公式确定合成视图内容时,由于存在遮挡问题而导致右图中的 某些点无法在左图中找到对应的点,即存在空洞问题,同样采用空洞边缘的像 素点对其进行填充,填充可以采用双线性插值方式进行。
本实施例中的显示模块用来显示对合成后的图像。该显示模块67可以是立 体显示设备包括自动立体显示设备,立体眼镜和全息显示设备三维立体显示等, 实现立体图像的立体显示,可以让用户体验到场景的深度,感受到立体效果。 当需要进行立体显示时, 一般需要完成上述的视图重构和空洞填充。本实施例 显示模块也可以是普通二维显示设备,仅显示二维合成图像,当只需要显示二 维图像,则不需要进行^L图重构,直接显示合成后的二维图像。
实施例3:
本实施甸为视频通信系统中的一个通讯过程实例,具体为两个用户U和B) 通过实施例2中的视频通讯设备进行通讯,其通讯过程中用户A向用户B发送 视频数据,以及用户B接收用户A的视频数据的全过程,该视频通讯系统的结 构如图10所示,包括发送端和接收端,发送端和接收端通过网络连接。
所述发送端,用于获取发送端的场景内容及其深度值,根据发送端的场景 内容深度值,从发送端的场景内容中分割出发送端的目标内容,并将所述发送 端的目标内容及其深度值发送到接收端;所述发送端包括信息获取模块1001, 用于实现对本地场景内容的拍摄,以及本地场景内容对应深度值的计算,或者 直接获取本地场景内容对应深度值;分割模块1002,用于根据深度值从本地场 景内容中分割出本地目标内容;编码^f莫块1003,用于对分割出的本地目标内容 及其对应的深度值进行编码;传输接口模块1004用来将本地目标内容及其深度值发送到接收端。
所述接收端用于接收发送端发送的目标内容及其深度值,并获取接收端的 背景内容及其深度值,根据深度值将发送端的目标内容和接收端的背景内容合 成场景内容。所述接收端包括传输接口模块1005,用来将接收远端发送的目标
内容及其深度值;解码^f莫块1006,用于实现对接收到的远端目标内容及其深度 值的解码;合成模块1007,用于对解码得到的远端目标内容与本地背景内容融 合,根据对应的深度值生成立体视图,其中的本地背景内容可以是本地场景内 容中分割出本地目标内容后的剩余内容,通过提取模块IOIO提取该剩余内容; 本地背景内容也可以是釆用另 一组摄像机拍摄的本地目标对面的场景内容;显 示模块1009,用于实现对和成图像的显示,可以是立体显示设备或普通二维显 示设备,如果是立体显示设备,则需要重构一幅另一个视点的二维图像。重构 另一个#见点二维图{象可以通过#见图重构才莫块1008来完成。 其通信过程如图9所示,具体包括如下步骤
901、 用户A的视频通讯设备的信息获取模块获取本地场景内容及其深度值; 可以通过深度摄像机(depth camera)或者立体摄像机获取本地场景内容以及 场景内容的深度值。深度掘Z隊机通过红外线可以直接获取深度;而立体摄像机 一般通过两个平行的摄像机获取场景内容,然后计算出该场景内容中每个像素 的深度值,计算公式为Z=fB/Ax;其中f为焦距,B为两个摄像机的距离,△ x为每个像素在两个摄像机中的位置差异。
902、 用户A的视频通讯设备的分割模块从本地场景内容中分割出本地目标 内容,具体为由分割模块中的人脸识别单元对拍摄到的本地场景内容进行人 脸识别得到人脸图像的位置,然后由分割模块中的查找单元在本地场景内容的 深度值中查我所述人脸图像位置对应的深度值,并根据查找到的深度值确定拍 摄到的图片中人物深度值的范围。这样就可以确定本地目标内容在场景内容中 的区域,''最后由分割模块中的分割单元根据确定的区域从本地场景内容中分割 出人物目标。
903、 在分割得出本地人物目标后,可以保存所述本地场景内容分割出本地 人物目标后的剩余内容,及剩余内容的深度值;也可通过另一个摄像机同时获 取人物目标对面的背景内容及其深度值,并保存。904、 将为了统一本地人物目标尺寸,需要将本地人物目标扩大到原是采集 图片的大小,或者裁剪成其他尺寸的图片;由于剪裁后产生的空洞区域可以填 充成0值。
905、 分别对步骤904中所得到本地人物目标及其深度值进行编码,最好使 用分层编码,采用分层编码需要传输的数据量较少。
906、 将编码后的所述本地人物目标及其深度值,通过传输接口模块发送到 用户B的一见频通讯i殳备。
以上步骤完成了用户A的发送操作,以下步骤为用户B接收数据及其对数 据的处理过程。
907、 用户B的视频通讯设备通过传输接口模块,接收到用户A发送的人物 目标及其深度值。
908、 用户B的视频通讯设备通过解码模块对接收到的数据解码,得到用户 A的人物目标及其深度值。同时用户B的视频通讯设备还需要获取背景内容和背 景内容的深疼值,一4殳情况下,可以将本地场景内容中去除本地目标后的剩余 内容作为其背景内容。如果通过另一个摄像机获取用户B对面的背景内容及其 深度值,、会使用户B看到的画面更真实,并且在合成图像时不会产生空洞问题。
909、 通过合成模块中缩放单元的对用户A发送过来的人物目标及其深度值 进行缩放,得到较为理想大小的人物目标,当需要把远端目标内容拉到更近的 距离时,即减小深度值时,需要对远端目标内容进行放大;当把远端目标内容 安排在更远的距离时,即增大深度值时,需要对其远端目标内容进行缩小。
然后根据用户A的人物目标缩放后的深度值以及背景内容的深度值,确定 远^A物目标和本地背景内容的遮挡关系,遮挡原则为当像素点的水平和垂 直位置重合时,深度值小的像素点遮挡深度值大的点(近景遮挡远景)。
合成模块中的合成单元再按照上述确定遮挡关系将人物目标和背景内容合 成一幅场景内容。
如果背景内容是去除目标内容后的剩余内容,则需要将合成场景内容中的 空洞进行像素填充;如果背景内容是直接获取用户B对面的场景,则不用进行 像素填充。
910、 视图重构模块对所述合成的场景内容进行虚拟视点图像合成,具体为根据以下公式计算虚拟视点与已知视图之间的视差 cHAlOl' -A202' =f * (C01-C02) /Z=f *B/Z。
其中,d为虚拟视点视图与已知视图之间的视差,f为摄像机的焦距,B为 虛拟视点与原摄像点之间的距离,Z为图像的深度。
当基于合成图像及其深度重构其右边的图像时,右边图像中某条扫描线、
处像素的颜色由左图像(合成图像)中对应扫描线、处像素的颜色确定,其中^ 的坐标由下式确定
在完成视图重构后,需要对虚拟视点图像合成后的场景内容中的空洞进行 像素填充。
911、通过显示模块显示合成后的场景内容,例如通过自动立体显示设备、 立体眼镜或全息显示设备三维立体显示等,实现立体图像的立体显示,或者通 过普通二维显示设备仅显示二维合成图像。
本实施例的视频通讯系统中,用户A的设备还可以包括视频接收装置,用 户B的设备还可以包括:枧频预处理装置,以确保用户B可以向用户A发送;E频 数据。如果用户B需要向用户A发送视频数据,其过程和图9一样,只是发送 方和接收方改变了。本发明实施例主要用在^L频通讯中,例如 一般的^L频聊 天,办公用的视频电话、视频会议等。
以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 该以权利要求的保护范围为准。
权利要求
1、一种视频预处理方法,其特征在于包括获取本地场景内容及其深度值;根据本地场景内容的深度值从本地场景内容中分割出本地目标内容。
2、 根据权利要求1所述的视频预处理方法,其特征在于,还包括 保存所述本地场景内容分割出本地目标内容后的剩余内容,及剩余内容的深度值,或者保存本地目标对面的背景内容及其深度值。
3、 根据权利要求1所述的视频预处理方法,其特征在于,所述获取本地场 景内容及其深度值包括通过深度摄像机获取本地场景内容以及场景内容的深度值;或者 通过两个平行的摄像机获取场景内容的两幅图像;对所述两幅图像进行匹配,计算每个像素在两个平行摄像机中对应的视差; 然后通过下式计算出场景内容中每个像素的深度值Z=fB/Ax,其中,Z为该像素的深度值,f为摄像机的焦距,B为两个摄像机的距离,Ax为每个像素在两个乎行摄像机中对应的视差。
4、 根据权利要求1所述的视频预处理方法,其特征在于,所述根据本地场 景内容的深度值从本地场景内容中分割出本地目标内容包括确定本地目标内容深度值的范围;根据所述深度值的范围确定本地目标内容在场景内容中的区域; 根据所述区域从本地场景内容中分割出本地目标内容。
5、 、根据权利要求4所述的视频预处理方法,其特征在于,如果所述本地目 标内容为人物,所述方法还包括对本地场景内容进行人脸识别得到人脸图像的位置; 在本地场景内容的深度值查找所述人脸图像位置对应的深度值; 所述确定本地目标内容深度值的范围包括根据查找到的深度值确定本地 目标内容深度值的范围。
6、 根据权利要求1所述的视频预处理方法,其特征在于还包括 分别对所述本地目标内容及其深度值进行编码。
7、 一种视频预处理装置,其特征在于包括 信息获取模块,用于获取本地场景内容及其深度值;分割模块,用于根据本地场景内容深度值,从本地场景内容中分割出本地 目标内容。
8、 根据权利要求7所述的视频预处理装置,其特征在于还包括 存储模块,用于保存所述本地场景内容分割出本地目标内容后的剩余内容,及剩余内容的深度值,或者保存本地目标对面的背景内容及其深度值。
9、 根据权利要求7所述的视频预处理装置,其特征在于,所述分割模块包括'查找单元,用于确定本地目标内容深度值的范围,并根据所述深度值的范 围确定本地目标内容在场景内容中的区域;分割单元,用于根据所述区域从本地场景内容中分割出本地目标内容。
10、 根据权利要求9所述的视频预处理装置,其特征在于,如果所述本地 目标内容为人物,所述分割模块还包括人脸识别单元,用于对本地场景内容进行人脸识别得到人脸图像的位置; 所述查找单元在本地场景内容的深度值中查找所述人脸图像位置对应的深度值,然后根据查找到的深度值确定本地目标内容深度值的范围,并根据所述深度值的范围确定本地目标内容在场景内容中的区域。
11、 根据权利要求7所述的视频预处理装置,其特征在于还包括 编码模块,用于对所述本地目标内容及其深度值进行编码。
12、 一种视频接收方法,其特征在于包括 接收远端发送的目标内容及其深度值; 获取本地的背景内容和背景内容的深度值; 根据深度值将远端目标内容和本地背景内容合成场景内容。
13、 根据权利要求12所述的视频接收方法,其特征在于,所述背景内容为 本地场景内容中去除本地目标后的剩余内容,或者本地目标对面的背景内容。
14、 根据权利要求12所述的视频接收方法,其特征在于,根据深度值将远端目标内容和本地背景内容合成场景内容包括根据远端目标内容的深度值以及本地背景内容的深度值,确定远端目标内 容和本地背景内容的遮挡关系;按照上述遮挡关系将远端目标内容和本地背景内容合成场景内容。
15、 根据权利要求14所述的视频接收方法,其特征在于,根据深度值将远 端目标内容和本地背景内容合成场景内容还包括对远端目标内容及其深度值 进行缩放。
16、 根据权利要求12所述的视频接收方法,其特征在于还包括 对所述合成的场景内容进行虚拟视点图像合成。
17、 根据权利要求12所述的视频接收方法,其特征在于还包括 对接收到的远端的目标内容及其深度值进行解码。
18、 一种视频接收装置,其特征在于包括 传输接口模块,用于接收远端发送的目标内容及其深度值; 提取模块,用于获取本地的背景内容及其深度值;合成模块,用于根据深度值将远端目标内容和本地背景内容合成场景内容。
19、 根椐权利要求18所述的视频接收装置,其特征在于,所述合成模块包括合成单元,用于才艮据远端目标内容的深度值以及本地背景内容的深度值, 确定远端目标内容和本地背景内容的遮挡关系,并按照上述遮挡关系将远端目 标内容和本地背景内容合成场景内容。
20、 根据权利要求19所述的视频接收装置,其特征在于还包括 缩放单元,用于对远端目标内容及其深度值进行缩放; 所述合成单元根据远端目标内容缩放后的深度值以及本地背景内容的深度值,确定远端目标内容和本地背景内容的遮挡关系。
21、 根据权利要求18所述的视频接收装置,其特征在于还包括 视图重构模块,用于对所述合成的场景内容进行虚拟视点图像合成。
22、 根据权利要求18所述的视频接收装置,其特征在于,所述背景内容为 本地场景内容中去除本地目标后的剩余内容,或者本地目标对面的背景内容。
23、 根振权利要求18所述的视频接收装置,其特征在于还包括 信息获取模块,用于获取本地的场景内容以及场景内容的深度值; 分割模块,用于根据本地场景内容的深度值从场景内容中分割出本地目标内容;所述传输接口模块还用于将本地目标内容及其深度值发送到远端。
24、 根据权利要23所述的视频接收装置,其特征在于,所述本地的背景内 容为本地场景内容中去除本地目标后的剩余内容,或者本地目标对面的背景 内容。
25、 根据权利要求23所述的视频接收装置,其特征在于,如果所迷本地目 标内容为人物,所述分割模块包括人脸识别单元,用于对本地场景内容进行人脸识别得到人脸图像的位置; 查找单元,用于根据人脸图像的位置确定人物深度值的范围,并根据所述 深度值的范围确定人物在本地场景内容中的区域;分割单元,用于根据所述区域从本地场景内容中分割出人物。
26、 根据权利要求18所述的视频接收装置,其特征在于还包括 解码模块,用于对接收到的远端的目标内容及其深度值进行解码。
27、 一种视频通讯系统,包括发送端和接收端,其特征在于, 所述发送端,用于获取发送端的场景内容及其深度值,根据发送端的场景内容深度值,从发送端的场景内容中分割出发送端的目标内容,并将所述发送 端的目标内容及其深度值发送到接收端;所述接收端用于接收发送端发送的目标内容及其深度值,并获取接收端的 背景内容及其深度值,根据深度值将发送端的目标内容和接收端的背景内容合 成场景内容。
全文摘要
本发明的实施例公开了一种视频通讯方法、装置及系统,涉及视频通讯领域,解决了现在需要对通讯双方的场景进行特殊布置才能增强真实感的问题。本发明实施例首先提取本地目标内容,其次将本地目标内容及其深度值发送到远端;远端利用深度值的关系,将接收到的本地目标内容和远端的背景合成一个场景,进行显示,使得远端显示画面与其当地背景相对应,在不需要对通讯双方的场景进行特殊布置的情况下增强使用者的真实感。本发明实施例可用于视频通讯中,例如一般的视频聊天,办公用的视频电话、视频会议等。
文档编号H04N7/15GK101610421SQ20081012700
公开日2009年12月23日 申请日期2008年6月17日 优先权日2008年6月17日
发明者源 刘, 琛 刘, 平 方 申请人:深圳华为通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1