基于AR技术的即时音视频通信方法及装置与流程

文档序号:12554211阅读:645来源:国知局
基于AR技术的即时音视频通信方法及装置与流程

本发明涉及即时通信技术领域,尤其涉及基于AR技术的即时音视频通信方法及装置。



背景技术:

随着科技的进步,诸如智能手机、笔记本电脑和计算机之类的终端设备已经成为工作生活中不可缺少的重要组成部分,增强现实(AR,Augmented Reality)技术通过将虚拟世界和现实世界结合,带给人们更好的体验。

目前跨平台、跨终端的即时通讯系统一般只采用人机交互的方式,例如文字,图片,动画,音频,视频和语音通话等,这种交互方式有一定的单一和局限性。因而如何将AR技术应用到即时通信系统以丰富交互方式是十分重要的。



技术实现要素:

本发明实施例提供基于AR技术的即时音视频通信方法及装置,以丰富即时通信的交互方式。

一方面,本发明实施例提供了基于AR技术的即时音视频通信方法,包括:

建立与至少一个通话对端的音视频通话连接;

依据本地端用户的操作确定目标对象;

依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,并将所述虚拟3D形象添加到音视频通话画面得到AR通话画面,且将所述目标对象发送给所述至少一个通话对端,使所述至少一个通话对端确定所述目标对象的虚拟3D形象并得到AR通话画面。

另一方面,本发明实施例还提供了基于AR技术的即时音视频通信装置,包括:

通话连接模块,用于建立与至少一个通话对端的音视频通话连接;

目标对象确定模块,用于依据本地端用户的操作确定目标对象;

通话画面生成模块,用于依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,并将所述虚拟3D形象添加到音视频通话画面得到AR通话画面,且将所述目标对象发送给所述至少一个通话对端,使所述至少一个通话对端确定所述目标对象的虚拟3D形象并得到AR通话画面。

本发明实施例提供的技术方案,本地通话端通过建立与至少一个通话对端的音视频通话连接,依据本地端用户的操作确定目标对象,依据本地端中预先存储的对象与3D形象模型文件之间的映射关系,确定目标对象的虚拟3D形象,将虚拟3D形象添加到音视频通话界面得到本地端的AR通话画面。并且,本地端还将目标对象发送给至少一个通话对端,使至少一个通话对端依据预设的对象与3D形象模型文件之间的映射关系确定目标对象的虚拟3D形象,将虚拟3D形象添加到音视频通话界面得到通话对端的AR通话画面。可以在本地端和通话对端同步生成包含虚拟3D形象的AR通话画面,丰富了即时通信系统的交互方法,提升了用户体验。

附图说明

图1为本发明实施例一中提供的基于AR技术的即时音视频通信方法的流程图;

图2为本发明实施例二中提供的基于AR技术的即时音视频通信方法的流程图;

图3为本发明实施例三中提供的基于AR技术的即时音视频通信方法的流程图;

图4为本发明实施例三中提供的AR音视频即时通信系统的通讯架构图;

图5为本发明实施例三中提供的虚拟3D形象的模型渲染示意图;

图6为本发明实施例三中提供的虚拟3D形象的贴图及纹理处理示意图;

图7为本发明实施例四中提供的基于AR技术的即时音视频通信装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中提供的基于AR技术的即时音视频通信方法的流程图。本实施例的方法可以由基于AR技术的即时音视频通信装置来执行,该装置可通过硬件和/或软件的方式实现。参考图1,本实施例提供的基于AR技术的即时音视频通信方法具体可以包括如下:

步骤11、建立与至少一个通话对端的音视频通话连接。

具体的,需要通话的双方或多方分别在终端上用预先注册或分配的账户和密码登陆到AR音视频通信系统。随后,任一通话方通过客户端的好友列表选择需要通话的好友,发起音视频通话请求,被选中方接受请求,则成功建立双方或多方的音视频通话连接。

其中,各AR音视频通信客户端中预先存储有对象与3D形象模型文件之间的映射关系,以备后续依据该映射关系生成虚拟3D形象。对象可以指诸如小猫、小狗、女生、男生、皮卡丘和精灵之类的角色身份。需要说明的是,客户端中还存储有3D形象模型文件分别与贴图和纹理文件之间的映射关系,以便于后续渲染虚拟3D形象。

步骤12、依据本地端用户的操作确定目标对象。

其中,本地端用户指的是主动需要加入AR虚拟物体的任一方用户。具体的,在本地端用户在屏幕上点击通信客户端提供的增加AR虚拟物体选项时,本地端可以依据用户操作确定目标对象。

步骤13、依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,并将所述虚拟3D形象添加到音视频通话画面得到AR通话画面,且将所述目标对象发送给所述至少一个通话对端,使所述至少一个通话对端确定所述目标对象的虚拟3D形象并得到AR通话画面。

具体的,本地端依据预设的对象与3D形象模型文件之间的映射关系,确定目标对象关联的目标3D形象模型文件,基于目标3D形象模型文件生成目标对象的虚拟3D形象,并将生成的虚拟3D形象添加到本地端屏幕所展示的音视频通话画面上得到本地端的AR通话画面。需要说明的是,还需要基于目标3D形象模型文件所关联的贴图和纹理文件,渲染虚拟3D形象。

并且,本地端还可以通过音视频通话应用的服务器将目标对象发送给至少一个通话对端。接收到目标对象的通话对端依据自身承载的客户端中预设的对象与3D形象模型文件之间的映射关系,确定目标对象关联的目标3D形象模型文件,基于目标3D形象模型文件生成目标对象的虚拟3D形象,并将生成的虚拟3D形象添加到通话对端屏幕所展示的音视频通话画面上得到通话对端的AR通话画面。

本实施例提供的技术方案,本地通话端通过建立与至少一个通话对端的音视频通话连接,依据本地端用户的操作确定目标对象,依据本地端中预先存储的对象与3D形象模型文件之间的映射关系,确定目标对象的虚拟3D形象,将虚拟3D形象添加到音视频通话界面得到本地端的AR通话画面。并且,本地端还将目标对象发送给至少一个通话对端,使至少一个通话对端依据预设的对象与3D形象模型文件之间的映射关系确定目标对象的虚拟3D形象,将虚拟3D形象添加到音视频通话界面得到通话对端的AR通话画面。可以在本地端和通话对端同步生成包含虚拟3D形象的AR通话画面,丰富了即时通信系统的交互方法,提升了用户体验。

示例性的,依据本地端用户的操作确定目标对象,可以包括:

A、获取所述本地端用户通过屏幕绘制的目标图像;或者,获取本地端摄像头采集的目标图像。

其中,即时音视频通信客户端提供有对象获取功能,如可以通过图像绘制方式来获取目标图像。具体的,若本地端用户选择通过绘制方式获取目标图像,则客户端提供类似电子白板的图像绘制区域供用户进行绘制,并将绘制内容作为目标图像。

另外,客户端还可以通过图像拍摄方式来获取目标图像。具体的,若本地端用户选择通过拍摄方式获取目标图像,则客户端可以控制本地端启动摄像头,用户使摄像头朝向某一物体进行拍摄得到目标图像。进一步的,为了使目标图像的获取不影响用户的视频通信,可以通过后置摄像头来获取目标图像,通过前置摄像头获取视频通话内容。

B、采用图像识别技术,确定所述目标图像所属的目标对象。

具体的,采用图像识别技术对目标图像进行识别,依据识别结果确定目标图像所属的角色身份,即确定目标图像所属的目标对象。

本实施例中客户端通过提供通过绘制方式或拍摄方式获取目标图像的功能,丰富了目标图像的获取方式,提升了趣味性,并且便于依据用户需求个性化地确定目标对象,以及便于后续个性化的生成虚拟3D形象。

另外,确定目标对象之后还可以包括:确定目标图像的尺寸和/或比例参数。相应地,为了进一步满足用户生成个性化的虚拟3D形象的需求,示例性的,依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,可以包括:确定所述目标对象的尺寸和/或比例;依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象;依据所述目标对象的尺寸和/或比例,修正并展示所述目标对象的虚拟3D形象。通过依据目标对象的尺寸和/或比例来修正目标对象的虚拟3D形象,可以进一步提高虚拟3D形象与目标对象的匹配度,从而提升用户体验。

实施例二

图2为本发明实施例二中提供的基于AR技术的即时音视频通信方法的流程图。参考图2,本实施例提供的基于AR技术的即时音视频通信方法具体可以包括如下:

步骤21、建立与至少一个通话对端的音视频通话连接。

步骤22、依据本地端用户的操作确定目标对象。

步骤23、依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,并将所述虚拟3D形象添加到音视频通话画面得到AR通话画面,且将所述目标对象发送给所述至少一个通话对端,使所述至少一个通话对端确定所述目标对象的虚拟3D形象并得到AR通话画面。

步骤24、获取目标动作指令。

其中,在双方或多方通话过程中,目标动作指令可以是依据任一方用户对虚拟3D形象的指令动作生成的。具体的,任一方用户可以对自己终端屏幕上展示的虚拟3D形象执行指令动作,检测到指令动作的终端生成目标动作指令,并将目标动作指令通过服务器发送给其他通话端。

示例性的,步骤24可以包括:依据本地端用户对所述目标对象的虚拟3D形象的操作,获取目标动作指令。

示例性的,步骤24也可以包括:通过服务器接收任一通话对端发送的目标动作指令,其中所述目标动作指令是依据该通话对端的用户对所述目标对象的虚拟3D形象的操作生成的。

步骤25、依据预设的动作指令与交互动画之间的映射关系,确定所述目标动作指令对应的目标交互动画。

其中,各即时通信客户端中还预先存储有动作指令与交互动画之间的映射关系。另外,客户端中还可以存储有交互动画分别与贴图和纹理文件之间的映射关系。

具体的,接收到动作指令的任一方通信端,依据该方通信端中动作指令与交互动画之间的映射关系,确定目标动作指令对应的目标交互动画。

步骤26、基于所述目标交互动画,控制所述目标对象的虚拟3D形象执行所述目标动作指令对应的动作。

需要说明的是,在控制3D形象执行目标动作指令对应的动作时,还需要基于目标交互动画所关联的贴图和纹理文件。

另外,在多方视频通话过程中,任一方点击退出按钮关闭窗口,其他方继续通话,直至只剩下一方时整个会话才完全结束。

本实施例提供的技术方案,在各通话端形成并展示目标对象的虚拟3D形象后,可以依据任一通话端对虚拟3D形象的动作指令生成目标动作指令,并将目标动作指令发送给其他通话端,使得各通话端所展示的虚拟3D形象均可以执行目标动作指令对应的动作。该方案通过控制虚拟3D形象执行动作进一步丰富了交互方式,可以提升用户体验的满意度。

实施例三

图3为本发明实施例三中提供的基于AR技术的即时音视频通信方法的流程图。参考图3,本实施例提供的基于AR技术的即时音视频通信方法具体可以包括如下:

步骤31、在AR音视频通话客户端中预先存储对象与3D形象模型文件之间的映射关系,以及动作指令与交互动画之间的映射关系。

具体的,设计师预先设计生活中常见的3D物体及3D物体的交互动画,交与美工通过3D建模工具(3DMAX、Blender等)制作3D形象模型,并将3D形象模型文件、交互动画、相关贴图及纹理文件存储在AR音视频即时通信应用的客户端中。

AR音视频即时通信系统主要基于SIP(Session Initiation Protocol,会话初始协议),SIP是IETF(Internet Engineering Task Force,因特网工程任务组)制定的协议标准,在多个RFC(Request For Comments,一系列以编号排定的文件)文档中被进行了描述说明。SIP是一个应用层的协议,用来建立,终止会话或是多媒体通话。音视频的传输采用RTP(Real-time Transport Protocol,实时传输协议)协议,RTP是IETF提出的一个标准,对应的RFC文档为RFC3550。RFC3550不仅定义了RTP,而且定义了配套的相关协议RTCP(Real-time Transport Control Protocol,即实时传输控制协议)。RTP用来为IP网上的语音、图像、传真等多种需要实时传输的多媒体数据提供端到端的实时传输服务。

AR音视频即时通信系统支持p2p点对点通讯。基于TurnServer(开源穿透服务器)的NAT(Network Address Translation,网络地址转换)穿透及转发可以完全实现P2P的点对点通讯。TurnServer包含STUN(Simple Traversal of User Datagram Protocol Through Network Address Translators,NAT的UDP简单穿越)协议和服务器中转转发的功能。STUN协议是个轻量级的协议,基于UDP(User Datagram Protocol,用户数据报协议)的完整的穿透NAT的解决方案。它允许应用程序发现它们与公共互联网之间存在的NAT和防火墙及其他类型。它也可以让应用程序确定NAT分配给它们的公网IP地址和端口号。STUN是一种Client/Server的协议,也是一种Request/Response的协议。

AR音视频即时通信系统也支持多方通讯。多方通话时需要用到TurnServer转发的功能,转发功能只能实现最多两个人的视频转发,所有的通话声音通过混合器再转发到每一方通话端进行播放。

步骤32、建立双方或多方的音视频通话连接。

图4为本发明实施例三中提供的AR音视频即时通信系统的通讯架构图。参考图4,AR音视频系统采用音视频通话中主流的SIP协议及HTTP(HyperText Transfer Protocol,超文本传输协议)协议。其中,SIP协议主要的功能有:1.客户端采用SIP协议登录Opensips服务器并更新上下线状态。2.客户端通过SIP协议进行音视频的呼叫、接听及多媒体数据的媒体协商。3.客户端通过SIP协议的subscribe、notify进行AR互动通讯信息的传输。4.客户端通过SIP协议的subscribe、notify进行好友上下线的状态通知。HTTP协议主要的功能有:1.客户端上进行用户名的注册。2.客户端的好友管理,增加好友,删除好友,同步好友。

另外,参考图4,后台各部分服务的功能如下:JSP(Java Server Pages,java服务器页面)web:AR音视频系统的web后台,用于整个系统的后台管理,音视频通讯系统的监控,客户端管理等功能。J2EE spring:实现客户端的好友管理的后台HTTP服务功能,保存好友的数据。Redis:实现Opensips服务和J2EE服务的数据中间桥梁,用户保存当前客户端的实时状态,Opensips和TurnServer的状态信息等。MySQL:作为J2EE服务的数据库,保存系统数据。Opensips:实现SIP协议的代理及转发功能。

具体的,客户端基于PJSIP(开源的SIP封装库)实现SIP会话的发起(invite),接听,挂断功能。音视频通话的数据通道通过RTP协议传输,如果是P2P点对点传输的则通过TurnServer的内网IP解析并穿透得到对方的公网IP和端口后直接开始数据的传输,如果是数据通过TurnServer的转发功能则直接接收来自TurnServer的音视频数据。

基于TurnServer的NAT透传及中转功能,能实现P2P的点对点及多方转发功能。客户端登陆连接到TurnServer后会跟服务端自动检测内网的类型及是否可以实现NAT透传功能(基于STUN协议),如果客户端在内网无法实现NAT透传(NAT类型是对称型的)则通过TurnServer的服务器转发功能。

多方通讯的原理则跟服务器转发一样,多方的音频数据都上传到服务器进行音频合成后再转发到所有的通话客户端进行解码播放。多方通讯的视频则最多只能实现2个客户端视频画面的广播。

步骤33、任一通话端的用户采用电子白板绘制目标图像,或者任一通话端通过后置摄像头拍摄现实物体得到目标图像。

步骤34、该通话端采用图像识别技术对目标图像进行识别,得到目标图像所属的目标对象。

步骤35、该通话端依据本地预设的对象与3D形象模型文件之间的映射关系,确定目标对象的虚拟3D形象,并将虚拟3D形象添加到本地视频通话画面得到AR通话画面。

具体的,该通道端通过OpenGL ES(OpenGL for Embedded Systems,OpenGL三维图形接口子集)图形接口解析本地存储的与目标对象对应的目标3D形象模型文件,并将虚拟3D模型渲染在该通话端的屏幕上。

具体的,虚拟3D模型的渲染过程包括:

1)设置绘制参数。参考图5,通过代码加载存储在本地的3D模型的数据,然后将数据通过CPU(Central Processing Unit,中央处理器)时钟发送到VRAM(Video Random Access Memory,显存),在GPU(Graphics Processing Unit,图形处理器)的控制下,使用VRAM中的数据和命令,完成图形的渲染,并将结果存入帧缓冲区中,帧缓冲区中的帧最终会被发送到显示器上。

2)贴图及纹理。参考图6,通过代码加载存储在本地的贴图,通过代码来解析贴图生成一个二维的数组数据,并加载到主内存中。再通过调用glTexImage2D()或者gluBuild2DMipmaps()接进行拆分,即根据像素的存储模式和像素转换操作,将纹理数据发送到显存上。

3)渲染。拿到显存中的二维数组数据,通过GPU进行纹理的渲染,将整个纹理映射到三维空间中。

步骤36、该通话端将目标对象发送给其他通话端,使其他通话端确定目标对象的虚拟3D形象并得到AR通话画面。

步骤37、若任一通话端的用户对虚拟3D形象执行动作指令,则各通话端的虚拟3D形象执行动作指令对应的动作。

具体的,3D物体根据不同的指令解析不同的动画文件。通过OpenGL ES图像接口操作原3D物体,改变其空间坐标及相关贴图纹理从而达到3D物体“动”起来的特效。

实施例四

图7为本发明实施例四中提供的基于AR技术的即时音视频通信装置的结构图。如图7所示,该基于AR技术的即时音视频通信装置可以包括:

通话连接模块41,用于建立与至少一个通话对端的音视频通话连接;

目标对象确定模块42,用于依据本地端用户的操作确定目标对象;

通话画面生成模块43,用于依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象,并将所述虚拟3D形象添加到音视频通话画面得到AR通话画面,且将所述目标对象发送给所述至少一个通话对端,使所述至少一个通话对端确定所述目标对象的虚拟3D形象并得到AR通话画面。

示例性的,所述通话画面生成模块43具体可以用于:

确定所述目标对象的尺寸和/或比例;

依据预设的对象与3D形象模型文件之间的映射关系,确定所述目标对象的虚拟3D形象;

依据所述目标对象的尺寸和/或比例,修正并展示所述目标对象的虚拟3D形象。

示例性的,该装置还可以包括:

指令获取模块,用于在确定并展示所述目标对象的虚拟3D形象,并将所述目标对象发送给所述至少一个通话对端之后,获取目标动作指令;

目标动画确定模块,用于依据预设的动作指令与交互动画之间的映射关系,确定所述目标动作指令对应的目标交互动画;

动作执行模块,用于基于所述目标交互动画,控制所述目标对象的虚拟3D形象执行所述目标动作指令对应的动作。

示例性的,所述指令获取模块具体可以用于:

依据本地端用户对所述目标对象的虚拟3D形象的操作,获取目标动作指令;或者,

通过服务器接收任一通话对端发送的目标动作指令,其中所述目标动作指令是依据该通话对端的用户对所述目标对象的虚拟3D形象的操作生成的。

示例性的,所述目标对象确定模块42可以包括:

目标图像获取单元,用于获取所述本地端用户通过屏幕绘制的目标图像;或者,用于获取本地端摄像头采集的目标图像;

目标对象确定单元,用于采用图像识别技术,确定所述目标图像所属的目标对象。

本实施例提供的基于AR技术的即时音视频通信装置,与本发明任意实施例所提供的基于AR技术的即时音视频通信方法属于同一发明构思,可执行本发明任意实施例所提供的基于AR技术的即时音视频通信方法,具备执行基于AR技术的即时音视频通信方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的基于AR技术的即时音视频通信方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1