一种手机卫星自适应姿态控制方法
【专利摘要】本发明涉及一种手机卫星自适应姿态控制方法,其中自适应姿态控制实现的关键步骤是通过强化学习算法实现对环境产生不可预知的变化时进行系统数学模型和控制策略的实时调整。该方法首先对手机卫星姿态控制系统进行数学建模,分析取得的环境参数变化的特点,制定相应的系统模型修改规则。然后,在手机卫星姿态控制模型中,实施基于强化学习算法的自适应控制。并且对强化学习算法进行了专门的优化,进一步提高了自适应控制算法的性能。
【专利说明】
-种手机卫星自适应姿态控制方法
技术领域
[0001 ]本发明设及一种手机卫星自适应姿态控制方法,属于自动控制领域。
【背景技术】
[0002] 自适应控制技术最早于1973年由K. J. Astrom和B. Wittenmark教授提出,是指在描 述系统运动规律的数学模型随环境的变化产生不可预知的变化时,可W在控制系统运行中 自主识别环境变化,自行调节控制器本身控制策略和模型参数来满足系统性能要求的技 术。它是一种克服环境不确定因素,提高控制系统适应性的有效方案,被广泛应用于机器 人、无人机、大型船舶、航天器等控制系统之中。
[0003] 自适应控制技术能够有效的根据环境变化调整控制策略。通过把传感器传入的参 数变化与当前控制策略所造成的控制误差进行比较,能够得知当前环境的变化。同时结合 人工智能技术,自主确定当前的环境参数及控制策略,并通过计算得到环境改变后的当前 最优控制方案。
[0004] 自适应控制技术的过程主要包括系统参数辨识、系统控制决策和系统调节修正S 个方面。系统参数辨识是指不断获取被控对象的参数及传感器得到的环境数据,并加 W处 理,W 了解系统的状态。系统控制决策是根据所辨识的系统状态和事先给定的控制策略做 出决策,运些决策既受当前系统的状态影响,也会根据任务的变化而有所不同。系统调节修 正则是对决策所计算出来的调节参量进行不断地修正,并由相应的执行机构来实现,W驱 使系统不断走向最优或要求的状态。
[0005] 2009年,美国国家航空航天局艾姆斯研究中屯、(NASA Ames Research Center)发 布了微小航天器技术计划,提出了在立方星标准下,W手机作为卫星计算单元的手机卫星 概念。美国加州州立理工大学和斯坦福大学在1999年提出了立方体卫星规范,即大小为 IOcm* IOcm* IOcm,重量不超过1.33kg的为IU的卫星,相应的,20cm* 10cm*10cm的尺寸为2U, 30cm*10cm*10cm的尺寸为3U。随着越来越多的大学和研究机构进入立方星的研究,运一技 术标准已逐渐成为微小卫星研究的主流。由于手机拥有比一般卫星更好的计算能力,低功 耗,又嵌入了照相机、巧螺仪、加速度计、GPS等传感器,因此将手机作为计算单元搭载在立 方星的设计框架上,不仅可W降低成本,同时也为卫星的姿态控制提供了便利,手机强大的 计算能力也可W为复杂的控制策略的实现提供十分便捷的平台。
[0006] 对于传统大卫星的姿态控制,已经可W做到角秒级的高精度自适应控制,然而对 于立方星等小卫星,由于受到体积的限制,其计算资源、传感器资源W及执行机构资源都比 传统大卫星稀缺,因此其算法执行能力,姿态确定精度和姿态控制精度都远小于传统大卫 星,大多数小卫星只能做到角度级的姿态控制。例如化mpkin公司的姿态确定控制系统 (ADCS),使用S轴磁力计和S轴动量轮,可W实现1°的控制精度;GomSpace公司的ADCS使用 磁力计、太阳敏感器和磁力矩器,可W实现5°的姿态控制精度;而BCT公司的XACT系统,使用 星敏感器、太阳敏感器、磁力矩器和动量轮,可W做到0.007°的姿态精度,但由于其技术上 的封锁,无法得知其实现高精度姿态控制的技术细节。目前猜测其实现了小体积下的高精 度星敏感器W及高精度动量轮,从而提高了控制精度。
[0007] 手机卫星则可W利用计算资源的优势,实现W上小卫星ADCS无法实现的对计算资 源要求较高的自适应方法,从软件的角度发挥智能化的优势,克服传感器和执行机构的不 足,提高控制的精度、自主性W及对环境的适应性。
[0008] 目前尚未有相关的技术实现的公开报道。
【发明内容】
[0009] 本发明技术解决问题:由于传统小卫星受到计算资源的限制,往往采用经典反馈 控制方法进行姿态控制,提供一种手机卫星自适应姿态控制方法,主要针对太空环境中存 在的重力、剩磁、气动干扰等问题进行自适应处理;在对手机卫星进行姿态控制的过程中, 动态识别系统的数学模型变化,自适应地调节系统参数和控制策略,减轻环境干扰的影响, 提高了姿态控制的精度、稳定度和适应性。
[0010] 本发明的原理:一种手机卫星自适应姿态控制方法,不确定环境为卫星姿态控制 系统运行的太空环境,受到重力梯度、太空福射、剩磁干扰等干扰。
[0011] ( - )对手机卫星姿态控制系统进行数学建模,包括动力学模型和运动学模型,将 巧螺仪的漂移,重力梯度干扰,气动干扰力矩,剩磁干扰力矩作为系统自适应辨识的参数, 最终获得随环境变化而变化的系统模型,分析取得的环境参数变化的特点,制定相应的系 统模型修改规则;该环节的输入为根据卫星传感器得到的上述环境信息W及执行机构给出 的控制输出,输出为更新的卫星动力学模型和运动学模型;
[0012] (二)在手机卫星姿态控制模型中,实施基于强化学习算法的自适应控制。强化学 习算法作为自适应控制方法的一种,其特点为:每次对被控对象进行姿态控制时,收集程序 获取的环境信息和执行器输出信息,解算出当前控制策略的回报值,从而判断当前控制策 略是否有进行优化的空间,如果有则根据迭代计算公式对当前控制策略进行优化。不断重 复运个过程,最终得到控制算法的收敛最优解,当动态模型发生变化时,控制策略也需要进 行相应的调整W适应外部环境的变化。该环节的输入为卫星的动力学模型、运动学模型、姿 态确定系统给出的卫星姿态W及相关环境信息,输出为更新的卫星姿态控制策略。
[0013] (S)对强化学习方法GTD-SS算法进行了专口的优化。该算法结合了 TD算法收敛速 度快和GTD2算法收敛精度高的特点,在迭代初期使用TD算法加快收敛速度,迭代后期使用 GTD2算法提高收敛精度,在算法切换过程中使用Sigmoid函数作为权重,减少算法切换过程 中的抖动。对GTD-SS算法的优化则使用了基于机器学习的非监督学习方法,自适应地调节 的切换点和切换速度,使切换过程不再依赖于专家经验,从而进一步提高系统对不确定环 境的自主适应能力。
[0014] 本发明具体方案:一种手机卫星自适应姿态控制系统,采用分层递阶姿态控制系 统:分为组织级、协调级和控制级;组织级对卫星的各项参数进行收集和分析,卫星的各项 参数包括传感器的数据,卫星的星历信息,实时生成手机卫星姿态控制的动态模型,并根据 环境参数变化,在线修正更新动态模型,输出最优控制策略;然后,在手机卫星姿态控制的 动态模型中,实施基于强化学习算法的自适应控制,并对强化学习算法进行优化,对环境的 变化进行及时的适应,输出智能化控制;协调级利用现有网络连接组织级和控制级,满足手 机卫星姿态控制系统对协作能力的需求;控制级将组织级的智能化控制输出转化为直接对 执行机构的控制命令输出。
[0015] 所述强化学习算法的过程是:根据输入的动态模型、姿态确定系统给出的手机卫 星姿态W及相关环境信息,每次对被控对象进行姿态控制时,收集获取的环境信息和执行 器输出信息,根据实际的控制效果解算出当前控制策略的回报值,从而判断当前控制策略 是否有进行优化的空间,如果有则根据迭代计算公式对当前控制策略进行优化;不断重复 运个过程,最终得到收敛最优解,当动态模型发生变化时,控制策略也需要进行相应的调整 W适应外部环境的变化,输出为更新的卫星姿态控制策略。
[0016] 所述对强化学习算法进行优化采用GTD-SS算法,GTD-SS算法包括GTD2算法和TD算 法,在GTD-SS算法的强化学习算法进行优化,对环境的变化进行及时的适应的切换过程中, 使用基于机器学习的非监督学习方法,自适应地调节的切换点和切换速度,使切换过程不 再依赖于专家经验,从而进一步提高系统对不确定环境的自主适应能力;当在动态模型的 更新初期的时候需要较快的收敛速度,使用TD算法进行更新;而在更新的后期需要更好的 收敛精度,此时使用GTD2算法进行更新。
[0017] -种手机卫星自适应姿态控制方法,实现为:
[0018] (1)对手机卫星姿态控制系统进行数学建模,实时生成手机卫星姿态控制的动态 模型,动态模型包括动力学模型和运动学模型,将巧螺仪的漂移,重力梯度干扰,气动干扰 力矩,剩磁干扰力矩作为系统自适应辨识的参数,最终获得随环境变化而变化的系统模型, 分析取得的环境参数变化的特点,制定相应的系统模型修改规则;该环节的输入为根据卫 星姿态敏感器得到的上述环境信息W及执行机构给出的控制输出,输出为更新的卫星动力 学模型和运动学模型;
[0019] (2)在手机卫星姿态控制的动态模型中,实施基于强化学习算法的自适应控制,强 化学习算法作为自适应控制方法是,根据输入的动态模型、姿态确定系统给出的卫星姿态 W及相关环境信息,每次对被控对象进行姿态控制时,收集获取的环境信息和执行器输出 信息,根据实际的控制效果解算出当前控制策略的回报值,从而判断当前控制策略是否有 进行优化的空间,如果有则根据迭代计算公式对当前控制策略进行优化;不断重复运个过 程,最终得到收敛最优解,当动态模型发生变化时,控制策略也需要进行相应的调整W适应 外部环境的变化,输出更新的卫星姿态控制策略。
[0020] 本发明与现有技术相比的优点在于:
[0021] (1)本发明使用手机作为卫星的计算平台,提高了卫星的计算能力,从而提高了自 适应姿态控制算法的信息处理能力,使得卫星在面对环境不可预知的不确定性时可W实时 在线的进行高效调整。
[0022] (2)本发明在手机计算平台下,使用强化学习算法为自适应控制算法,能够提高卫 星姿态控制的精度,控制稳定度W及卫星姿态控制的自主性。
[0023] (3)本发明对强化学习算法进行了专口的优化,使用软切换方法结合了 TD(A)算法 快速收敛和GTD2算法高精度的优势进一步提高了自适应控制算法的性能。
【附图说明】
[0024] 图1为卫星姿态控制系统图;
[0025] 图2为面向手机卫星的分层递阶自适应卫星姿态控制系统图;
[0026] 图3为基于强化学习的自适应姿态控制系统流程图;
[0027] 图4为基于TD(A)算法和GTD2算法的GTD-SS算法伪代码图;
[002引图5为GTD-SS算法所使用的sigmoid函数示意图;
[00巧]图6为GTD-SS算法的仿真结果。
【具体实施方式】
[0030] 下面结合说明书附图,对本发明的【具体实施方式】做详细描述。
[0031] 图1展示的是卫星姿态控制系统的流程图。首先,卫星指令会输入当前所需要的控 制目标,比如是对地观测或者是对天观测等,将指令输入给控制器由姿态控制算法进行相 应的控制。确定了控制目标之后,姿态敏感器如太阳敏感器和惯性传感器等开始收集包含 了各种噪声的原始姿态信息传递给姿态确定机构,通过姿态确定方法对原始信息进行处 理,并将解算出的姿态信息传递给控制器,告知当前系统的状态。此时,控制器则会根据系 统的数学模型,和自适应控制算法计算出当前的控制策略,并交给执行机构,从而完成姿态 控制的任务。
[0032] 下边针对本发明的一体化自适应姿态控制方法进行详细介绍。
[0033] 图2展示的是分层递阶姿态控制系统图。在手机卫星的姿态控制系统中应用分层 递阶控制系统,可W充分利用手机的计算单元计算能力的优势,在组织级对卫星的各项参 数进行收集和分析,实时生成卫星的动态模型,对环境的变化进行及时的适应,并且对姿态 控制系统给出智能化的输出;在协调级利用现有网络控制系统对实时性和健壮性的优化, 连接组织级和协调级,使强化学习算法对姿态控制系统的整体规划能够实时稳定的传递给 不同的执行机构,并且使大量不同传感器的数据也能够实时稳定的将数据传递给组织级, 发挥各自的优势,从而满足了手机卫星姿态控制系统对协作能力的需求。在执行级根据组 织级发出的控制指令,进行高精度和低智能化的控制,从而发挥出硬件和机械系统的最优 性能。自适应姿态控制方法的核屯、是强化学习算法,下面针对强化学习算法进行详细介绍。
[0034] 图3为强化学习算法的基本模型,其中系统的动态模型如下:
[0035] St+i=AtSt+B 化 t+?t
[0036] 式中At为系统状态的转移矩阵,Bt表示执行结果对系统状态的影响,COt为系统的 噪声,使系统回报函数达到最大的一系列系统输出的集合。卫星姿态控制系统通过强 化学习算法的基本原理,不断更新动态模型和输出最优策略来达到自适应控制卫星姿态的 目的。首先,卫星姿态控制系统通过传感器感知到手机卫星的当前状态St,然后通过动态模 型和最优策略交给控制器作为决策依据,再由控制级根据经过强化学习生成的最优策略 发出控制指令Ut,执行机构最后把执行的结果返回动态模型和策略生成机构,即组织级的 强化学习机构,负责生成控制策略,验证控制效果并且根据强化学习的算法,实时修正动态 模型St和执行策略通过在线修正动态模型和最优控制策略,W达到提高卫星姿态控制自 主性,降低系统研发成本和研发周期的目的。
[0037] 下面介绍具体的学习过程。
[0038] 图4为GTD-SS算法的流程图,该算法为一种优化的强化学习算法。首先,算法需要 对各种变量进行初始化,然后执行算法迭代的过程。该算法包括两种基本算法,GTD2算法和 TD算法。
[0039] 其中,TD(Temporal Difference,时序差分)算法是由Sutton等人提出的经典的强 化学习算法,该算法通过定义执行机构每次执行的代价r,如执行机构所消耗的时间,所消 耗的能量W及达到的系统新状态,再根据两次执行之后的效果差来计算当前策略的价值函 数,通过不断优化该函数从而达到获取最优策略的过程。
[0040] 而GTD2(Gradient Temporal Difference 2,梯度下降时序差分算法第2代)算法 是在TD算法的基础上在2009年由Sutton等人提出的新型强化学习算法,该算法在TD算法的 基础上引入了变量W,从而在每次TD算法更新后对S值进行更新,运样做提高的算法的精度, 但却减缓了算法的收敛精度,相当于得到了一种更谨慎的算法。
[0041] 因此,GTD-SS算法在运两个计算结果的基础上进行了综合,当算法在更新初期的 时候需要较快的收敛速度,因此主要使用TD算法进行更新。而在算法更新的后期需要更好 的收敛精度,因此此时主要使用GTD2算法进行更新。下面介绍具体的综合原理。
[0042] 图5为GTD算法更新所使用的SIGMOID函数,该函数被广泛应用于机器学习算法中 的人工神经网络中。由该函数可W看出,自变量在接近于0的时候,是该函数值改变比较大 的时候。而当自变量在负值处越小,函数值越接近于零。当自变量在正值处越大,函数值越 接近于1。通过改变函数中的参数,可W修改算法的切换位置和切换速度。因此可W将强化 学习算法的学习进度当作SIGMOID函数的自变量,把两种算法的更新权重作为SIGMOID的函 数值,通过调节算法的切换速度和切换位置来调节两种算法所占的比例和改变速度。从而 合理的发挥两种算法各自的优势和长处,弥补彼此的短处和不足。
[0043] GTD-SS算法的流程如图4所示。切换权重如下列公式所示:
[0044]
[0045] W刃TU算法的仪重,1-W为GTD2算法的权重。参数B负责调节算法的切换位置,决定 了在学习的哪个阶段将TD算法逐渐切换为GTD2算法,该参数可由当前价值函数与最优解时 的价值之差来决定,也可W由学习算法的学习速度来决定,亦可根据工程人员的经验来决 定。参数E负责调节算法的切换速度,如果该参数过大导致切换过快,则容易时算法产生不 稳定的抖动,如果该参数过小导致切换过慢,又无法使算法起到应有的效果。图5中展示的 是当B=IO时,E取不同值所得到的切换函数。然而算法在实际应用的过程中亦需要面对环 境的不确定性所带来的影响,提前根据算法的学习速度或专家经验所指定的算法切换位置 及切换速度往往会限制算法实际应用的效果。因此在算法实际应用的过程中可W使用基于 机器学习的非监督学习方法对两种算法进行在线实时自主评价,从而根据环境变化实时调 节切换位置和切换速度,最大限度地发挥两种算法的性能,进一步提高系统的自适应能力。 下面介绍GTD-SS算法的实验结果。
[0046] 图6为基于GTD-SS算法的仿真结果,实验基于随机游走对算法进行仿真。如图可 知,算法在初期的收敛速度明显高于GTD2法并且在后期的收敛精度明显高于TD算法。图中 所展示的TDC算法为TD算法的改进版本。
[0047] 本发明未详细阐述部分属于本领域技术人员的公知技术。
[0048] W上所述,仅为本发明中的【具体实施方式】,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所掲露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该W权利要求书为准。
【主权项】
1. 一种手机卫星自适应姿态控制系统,其特征在于:采用分层递阶姿态控制系统,分为 组织级、协调级和控制级;组织级对卫星的各项参数进行收集和分析,卫星的各项参数包括 传感器的数据,卫星的星历信息,实时生成手机卫星姿态控制的动态模型,并根据环境参数 变化,在线修正更新动态模型,输出最优控制策略;然后,在手机卫星姿态控制的动态模型 中,实施基于强化学习算法的自适应控制,并对强化学习算法进行优化,对环境的变化进行 及时的适应,输出智能化控制;协调级利用现有网络连接组织级和控制级,满足手机卫星姿 态控制系统对协作能力的需求;控制级将组织级的智能化控制输出转化为直接对执行机构 的控制命令输出。2. 根据权利要求1所述的手机卫星自适应姿态控制系统,其特征在于:所述强化学习算 法的过程是:根据输入的动态模型、姿态确定系统给出的手机卫星姿态以及相关环境信息, 每次对被控对象进行姿态控制时,收集获取的环境信息和执行器输出信息,根据实际的控 制效果解算出当前控制策略的回报值,从而判断当前控制策略是否有进行优化的空间,如 果有则根据迭代计算公式对当前控制策略进行优化;不断重复这个过程,最终得到收敛最 优解,当动态模型发生变化时,控制策略也需要进行相应的调整以适应外部环境的变化,输 出为更新的卫星姿态控制策略。3. 根据权利要求1所述的手机卫星自适应姿态控制系统,其特征在于:所述对强化学习 算法进行优化采用GTD-SS算法,GTD-SS算法包括GTD2算法和TD算法,在GTD-SS算法的强化 学习算法进行优化,对环境的变化进行及时的适应的切换过程中,使用基于机器学习的非 监督学习方法,自适应地调节的切换点和切换速度,使切换过程不再依赖于专家经验,从而 进一步提高系统对不确定环境的自主适应能力;当在动态模型的更新初期的时候需要较快 的收敛速度,使用TD算法进行更新;而在更新的后期需要更好的收敛精度,此时使用GTD2算 法进行更新。4. 一种手机卫星自适应姿态控制方法,其特征在于实现为: (1) 对手机卫星姿态控制系统进行数学建模,实时生成手机卫星姿态控制的动态模型, 动态模型包括动力学模型和运动学模型,将陀螺仪的漂移,重力梯度干扰,气动干扰力矩, 剩磁干扰力矩作为系统自适应辨识的参数,最终获得随环境变化而变化的系统模型,分析 取得的环境参数变化的特点,制定相应的系统模型修改规则;该环节的输入为根据卫星姿 态敏感器得到的上述环境信息以及执行机构给出的控制输出,输出为更新的卫星动力学模 型和运动学模型; (2) 在手机卫星姿态控制的动态模型中,实施基于强化学习算法的自适应控制,强化学 习算法作为自适应控制方法是,根据输入的动态模型、姿态确定系统给出的卫星姿态以及 相关环境信息,每次对被控对象进行姿态控制时,收集获取的环境信息和执行器输出信息, 根据实际的控制效果解算出当前控制策略的回报值,从而判断当前控制策略是否有进行优 化的空间,如果有则根据迭代计算公式对当前控制策略进行优化;不断重复这个过程,最终 得到收敛最优解,当动态模型发生变化时,控制策略也需要进行相应的调整以适应外部环 境的变化,输出更新的卫星姿态控制策略。
【文档编号】G05B13/04GK106019950SQ201610647835
【公开日】2016年10月12日
【申请日】2016年8月9日
【发明人】赵军锁, 吴凤鸽, 许轲
【申请人】中国科学院软件研究所