本发明属于机器人遥操作领域,涉及一种机器人系统在未知环境下的人机交互控制方法。
背景技术:
在遥操作系统中,人类通过人机交互界面、通信网络和远程机器人实现和远程环境的交互,实现对远端机器人的操控。该系统一方面通过操作者的介入,解决了机器人在人工智能和传感技术限制的条件下,对任务目标的确定能力和决策能力不足,无法完全自主地在复杂和未知环境下完成需要高级决策的作业任务的不足;另一方面利用机器人在操作精度、复杂任务分配和路径规划等计算方面的优势,将人的智能与机器人的精确性有机的结合起来,保证远程机器人自主地进行高精度作业的同时,减轻操作者的任务负担。
前期的研究工作表明,机器人操作的对象和环境都是已知的,操作对象都以确定的合作目标为主。但是对于抓捕、捕获,甚至对敌方航天器的破坏等攻击活动,因为操作对象和环境都是未知的,所以以往的控制系统都不能很好地进行控制。因此,设计基于参考自适应的控制系统,结合机器人和环境之间的轨迹误差和相互作用力,使用代价函数构建交互性能。设计基于参考自适应的在未知环境下的人机交互控制方法十分必要。
已有的方法包括混合力/位置控制系统和阻抗控制系统,根据混合力/位置的系统结构进行控制较为简单,不能解决较为复杂的未知环境下的任务。采用阻抗控制系统结构,机器人的运动通过来自环境的力进行控制,但是如何获取一个阻抗模型和一个最优参考轨迹从而达到人们对人机交互的性能要求,并不容易。
技术实现要素:
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种机器人系统在未知环境下的人机交互控制方法,针对在未知环境中的机器人的人机交互控制方法的问题,可用于对目标的抓取等操作中。
技术方案
一种机器人系统在未知环境下的人机交互控制方法,其特征在于步骤如下:
步骤1:结合轨迹追踪误差和人机之间的相互作用力,用代价函数V定义将要评价的期望的交互性能:
式中,t0和tf分别表示起始和终止时间,X(t)是给定的任务轨迹,Q表示半正定矩阵,R表示正定矩阵;
步骤2:设计一个自适应规律来更新机器人的参考轨迹,在一个反复迭代规则下使代价函数最小化:
自适应规律:θj+1=θj+γj(V*-V(θj))
式中,θ是轨迹参数,γ是j次迭代的自适应率;
所述反复迭代规则:
步骤3:建立基于笛卡尔空间下的自适应阻抗控制律:
以自适应阻抗控制律进行交互控制。
所述步骤1中,所要研究的系统描述和控制目标如下:
1-1):机器人机械臂的运动学方程:
X(t)=φ(q(t)) (1)
式中,是笛卡尔空间下的机械臂位置,是相对应的关节空间下的机械臂位置,nC是笛卡尔空间的大小,n是机器人的自由度。对时间t求导,得到
式中,是雅克比矩阵,再对时间t求导,得到
因此,得到机械臂关节空间的动力学表达式
式中,是惯性矩阵,表示哥式力和离心力,表示重力,表示控制输入,表示与环境的相互作用力。将式(1)、(2)和(3)带入式(4),得到在笛卡尔坐标系下的机械臂动力学方程
其中,
MR(q(t))=J-T(q(t))M(q(t))J-T(q(t))
GR(q(t))=J-T(q(t))G(q(t))
u(t)=J-T(q(t))τ(t)
1-2):式(5)的机械臂动力学方程采用一个目标阻抗模型,可表示为:
式中,MD、CD和GD分别是期望的惯性矩阵、阻尼矩阵和刚体矩阵,Xr(t)是参考轨迹。
系统的另一部分是机器人与环境之间的相互作用关系,不失一般性的,所采用的环境模型可以是
式中,ME、CE和GE分别是未知环境的惯性矩阵、阻尼矩阵和刚体矩阵。
1-3):所采用的代价函数为
式中,t0和tf分别表示起始和终止时间,X(t)是给定的任务轨迹,Q表示半正定矩阵,R表示正定矩阵。通过求V的最小值,轨迹追踪和最小相互作用力之间的平衡可以得到,期望的相互作用性能可以满足要求。
所述步骤2中,具体的自适应控制率的构造方法如下:
2-1)将代价函数参数化,根据式(6)和(7),可以得到
机械臂的实际轨迹X(t)可以基于Xr(t)获得,也可用X(θ)表示,其中θ是轨迹参数,从环境模型(7)可以看出,相互作用力F(t)也可以基于X(θ)获得,因此也可以用F(θ)表示。显然,式(8)中的代价函数V也可以由轨迹参数θ决定。所以,现在目标变为,寻求使代价函数V(θ)最小的最优的θ集,即
2-2)为了获得θ*,设计了一个自适应率,构造一个变换
V*-V(θj+1)=λ(V*-V(θj)) (11)
式中,V*=V(θ*)表示V(θ)的最小值,j为迭代指数,λ是收敛率。为了得到式(11)的变换,一个简单的自适应率被设计如下
θj+1=θj+γj(V*-V(θj)) (12)
式中,和是j次迭代的自适应率,定义梯度
因此,可以得到
式中,只要最小代价函数的收敛性将可以实现。
然而,自适应率中的V*是未知的,为了避免这个局限性,对自适应率进行了修改
θj+1=θj-σjV(θj) (15)
式中,是新的自适应率,则构造的变换变为
将式(15)带入(16)得
其中,新的自适应率σj需要满足
2-3)σj的选择依赖于当完全已知的时候,σj可按以下方程选取
可加速收敛过程。
为了加速自适应过程,梯度部分可以使用之前的代价函数和参数进行估计,如下
以上过程,通过学习得到梯度g(θ),受未知环境限制的期望的交互性能可以得到满足。
所述步骤3中,设计自适应阻抗控制在笛卡尔坐标系下的具体方法如下:
定义阻抗误差:
式中,和选择两个满足Λ+Γ=KC和ΛΓ=KG的正定矩阵,定义滤波辅助变量Xl(t),则
式(20)可重新写为
通过定义另一个阻抗误差
可得到以下方程式
根据式(24),如果且存在,因为Λ是正定的,则有因此,自适应阻抗控制的目标为
考虑式(23),式(5)可重写写为
其中,Xv(t)=-ΓX(t)+Xl(t)
除此之外,还可以得到
在笛卡尔坐标下,提出一个自适应阻抗控制,如下
其中,K是正定矩阵,采用以下方程进行校正
式中,是Ψ的估计值。
综合以上步骤,首先,基于相互作用性能V(θ)在笛卡尔坐标下生成参考轨迹Xr(t);其次,采用目标阻抗模型,自适应阻抗控制被应用于机器人动力学模型。
有益效果
本发明提出的一种机器人系统在未知环境下的人机交互控制方法,在人机交互中用机器人机械臂的参考自适应来改善其参考轨迹,使其可以在未知环境下也可以满足我们所需要的人机交互性能,通过提出基于轨迹参数和反复学习的参考自适应来使其最小化,由最小化的代价函数描述轨迹追踪和力最小化,其中代价函数已被参数化,轨迹参数也被最小化,对由目标阻抗模型建立的机器人进行控制。
本发明方法是一种反复学习的方法,可适用于未知环境下的机器人的遥操作,具有良好的人机交互性、实时性和准确性等优点。与现有技术相比,本发明具有如下有益效果:
1.远程操作更精准,执行任务更容易
本发明基于参考自适应技术,使用参数化的代价函数对参数进行最小化,解决了以往控制方法精度不高的问题。
2.可以在未知环境中进行操控,满足人机交互性能
3.计算量小,计算速度快,能够满足实时性要求
附图说明
图1为本发明的控制流程意图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
步骤一:建立机器人机械臂的运动学方程:
X(t)=φ(q(t)) (30)
式中,是笛卡尔空间下的机械臂的位置,是相对应的关节空间下的机械臂的位置,nC是笛卡尔空间的大小,n是机器人的自由度。对时间t微分,得到
式中,是雅克比矩阵,再对时间t求导,得到
因此,机械臂关节空间的动力学表达式为
式中,是惯性矩阵,表示哥式力和离心力,表示重力,表示控制输入,表示与环境的相互作用力。将式(30)、式(31)和式(32)带入式(33),得到在笛卡尔坐标系下的机械臂动力学方程
其中,
MR(q(t))=J-T(q(t))M(q(t))J-T(q(t))
GR(q(t))=J-T(q(t))G(q(t))
u(t)=J-T(q(t))τ(t)
式(34)的机械臂动力学方程采用一个目标阻抗模型,可表示为:
式中,MD、CD和GD分别是期望的惯性矩阵、阻尼矩阵和刚体矩阵,Xr(t)是参考轨迹。
步骤二:系统的另一部分是机器人与环境之间的相互作用关系,不失一般性的,所采用的环境模型可以是
式中,ME、CE和GE分别是未知环境的惯性矩阵、阻尼矩阵和刚体矩阵。
步骤三:设计一个代价函数
式中,t0和tf分别表示起始和终止时间,X(t)是给定的任务轨迹,Q表示半正定矩阵,R表示正定矩阵。通过求V的最小值,轨迹追踪和最小相互作用力之间的平衡可以得到,期望的相互作用性能可以满足要求。
步骤四:将代价函数参数化,根据式(35)和式(36),可以得到
机械臂的实际轨迹X(t)可以基于Xr(t)获得,也可用X(θ)表示,其中θ是轨迹参数,从环境模型式(36)可以看出,相互作用力F(t)也可以基于X(θ)获得,因此也可以用F(θ)表示。显然,式(37)中的代价函数V也可以由轨迹参数θ决定。所以,现在目标变为,寻求使代价函数V(θ)最小的最优的θ集,即
步骤五设计了一个自适应率,构造一个变换
V*-V(θj+1)=λ(V*-V(θj)) (40)
式中,V*=V(θ*)表示V(θ)的最小值,j为迭代指数,λ是收敛率。为了得到式(40)的变换,一个简单的自适应率被设计如下
θj+1=θj+γj(V*-V(θj)) (41)
式中,和是j次迭代的自适应率,定义梯度
因此,可以得到
式中,只要最小代价函数的收敛性将可以实现。
步骤六:然而,自适应率中的V*是未知的,为了避免这个局限性,对自适应率进行了修改
θj+1=θj-σjV(θj) (44)
式中,是新的自适应率,则构造的变换变为
将式(44)带入式(45)得
其中,新的自适应率σj需要满足
σj的选择依赖于当完全已知的时候,σj可按以下方程选取
可加速收敛过程。
为了加速自适应过程,梯度部分可以使用之前的代价函数和参数进行估计,如下
以上过程,通过学习得到梯度g(θ),受未知环境限制的期望的交互性能可以得到满足。
步骤七:定义阻抗误差:
式中,和选择两个满足Λ+Γ=KC和ΛΓ=KG的正定矩阵,定义滤波辅助变量Xl(t),则
式(49)可重新写为
通过定义另一个阻抗误差
可得到以下方程式
根据式(53),如果且存在,因为Λ是正定的,则有因此,自适应阻抗控制的目标为
考虑式(52),式(34)可重写写为
其中,Xv(t)=-ΓX(t)+Xl(t)
除此之外,还可以得到
步骤八:在笛卡尔坐标下,提出一个自适应阻抗控制,如下
其中,K是正定矩阵,采用以下方程进行校正
式中,是Ψ的估计值。