用于计算机辅助地控制和/或调节技术系统的方法

文档序号:9355087阅读:504来源:国知局
用于计算机辅助地控制和/或调节技术系统的方法
【技术领域】
[0001]本发明涉及一种用于计算机辅助地控制和/或调节技术系统的方法以及一种相应的计算机程序产品。
【背景技术】
[0002]经常在计算机辅助的方法的基础上调节复杂的技术系统、比如燃气涡轮机或风力涡轮机,所述计算机辅助的方法在训练数据和相应的优化准则的基础上确定行动选择策略(英语:Policy)。该行动选择策略指明,在所述系统的相应的状态中应该在所述技术系统上实施何种行动。由此比如可以实现以较高的效率来运行所述技术系统。对于燃气涡轮机来说,此外必要时可以降低燃烧室动力或排放。对于风力涡轮机来说,比如也可以对吊舱关于风的定向进行优化。
[0003]为了确定相应的、用于技术系统的行动选择策略,通常使用麻烦的回归法、比如神经网络。但是,这些回归法具有以下缺点:它们产生复杂的行动选择策略,所述复杂的行动选择策略不再能够被人类专家所解释或理解。因此,缺乏可理解性的复杂的行动选择策略有时候不被使用在技术系统的运行中。从现有技术中已知一些方法,利用这些方法来产生具有更小的复杂性的行动选择策略,比如方法是:通过具有较小规模的状态来表示所述技术系统或者使用更加简单的回归法。但是,这些方案经常导致对于所述对技术系统的控制或调节来说非最优的行动选择策略。

【发明内容】

[0004]因此,本发明的任务是,提供一种用于计算机辅助地控制和/或调节技术系统的方法,所述方法使用具有较小的复杂性的、较好地适合于所述技术系统的行动选择策略。
[0005]该任务通过独立权利要求来解决。本发明的改进方案在从属权利要求中被阐明。
[0006]下面在步骤a)到c)的基础上对根据本发明的方法进行解释。这些步骤的名称仅仅用于更好参照其中所包含的特征,并且没有规定实施的顺序。特别地,特定的步骤也可以并行地实施或交织到彼此当中。
[0007]根据本发明的方法用于计算机辅助地控制和/或调节技术系统。按照步骤a),就多个时刻而言所述技术系统的动态行为分别以所述技术系统的状态和在所述技术系统上所执行的行动为特征,其中在相应的时刻的相应的行动引起所述技术系统在接下来的时刻的新的状态。术语“状态”或“行动”在此要广义地来理解。状态特别地可以包括具有一个或多个状态变量的状态矢量。在相应的(当前的)时刻的状态除了在当前时刻的状态矢量之外还可以可选地包括一个或多个在一个或多个先前的时刻的状态矢量,由此对在有限的时间水平范围内的状态的历史加以考虑。同样,行动可以是由多个行动变量构成的矢量。
[0008]在根据本发明的方法的步骤b)中提供和/或产生(多个)行动选择策略,其中相应的行动选择策略至少根据所述技术系统在相应的时刻的状态指定在相应的时刻有待在所述技术系统上执行的行动,并且其中为每个行动选择策略分配了一个复杂性尺度,所述复杂性尺度描述了相应的行动选择策略的复杂性,所述复杂性小于或者小于等于预先确定的复杂性阈值。所述复杂性尺度在此可以以不同的方式来定义,其中下面进一步给出了这样的复杂性尺度的实例。
[0009]在根据本发明的方法的步骤c)中,借助于对于评估尺度的计算从所提供的和/或所产生的行动选择策略中确定所提供的和/或所产生的行动选择策略的具有最高评估尺度的行动选择策略,其中所述评估尺度相应地描述了行动选择策略用于对所述技术系统进行调节和/或控制的适宜性。更高的评估尺度在此描述所述行动选择策略用于对技术系统进行调节和/或控制的更好的适宜性。在特定的实施方式中,可以并行地或彼此交织地实施所述步骤b)和C)。比如可以首先产生特定的行动选择策略,并且随后可以抛弃具有较差的评估尺度的行动选择策略的一部分。随后又产生新的行动选择策略,并且以相同的方式又抛弃相应的行动选择策略。特别地,在使用进一步在下面描述的基因编程或粒子群优化时所述步骤b)和c)交织在彼此当中。
[0010]按照本发明,相应的行动选择策略的、在步骤c)的范围内所计算的评估尺度可以取决于以下三个参量中的一个或多个参量:
-所述相应的行动选择策略与预先给定的最佳的行动选择策略之间的距离尺度,其中减小的距离尺度表示更高的评估尺度,并且其中所述预先给定的最佳的行动选择策略优选建立在神经网络(比如循环神经网络)的基础上;
-奖励尺度,在执行所述相应的行动选择策略时在对于所述技术系统的模拟中产生所述奖励尺度,其中更高的奖励尺度引起更高的评估尺度,并且其中所述模拟优选建立在神经网络(比如循环神经网络)的基础上;
-用于所述相应的行动选择策略的质量尺度,借助于行动选择策略-评估方法(英语:Policy Evaluat1n Method)来确定所述质量尺度,其中更高的质量尺度引起更高的评估尺度。
[0011]上面所描述的奖励尺度根据所述技术系统的运行的、预先确定的最佳化准则来确定,其中鉴于所述最佳化准则更高的奖励尺度确定了对于所述技术系统的更好的控制或调节。在行动选择策略-评估方法的基础上确定质量尺度,这一点本身从现有技术中已知。特别地,已知不同种类的行动选择策略-评估方法。在一种优选的实施方式中,使用“合适策略评估方法(Fitted Policy Evaluat1n Method),,(参见文献[I])。
[0012]在步骤c)中确定所述行动选择策略之后,最后用该行动选择策略在步骤d)中对所述技术系统进行调节和/或控制。
[0013]根据本发明的方法能够用具有较小的复杂性的行动选择策略来对技术系统进行调节或控制,另外所述行动选择策略通过确定合适的评估尺度保证所述技术系统的尽可能最佳的运行。由于降低了所述行动选择策略的复杂性,所述行动选择策略能够更为容易地被人所理解,从而更容易接受利用这种行动选择策略对所述技术系统进行的计算机辅助的控制或调节。
[0014]在一种特别优选的实施方式中,相应地通过函数关系来表示所提供的或所产生的行动选择策略,所述函数关系至少基于所述技术系统在相应的时刻的状态提供有待在相应的时刻执行的行动。术语“函数关系”在此应该广义地来理解,并且可以包括每种任意类型的函数或函数组合或数学表达式。特别地,所述函数关系可以包括可调节的参数,其中通过对于相应的参数值的确定来定义行动选择策略。
[0015]在根据本发明的方法中所使用的复杂性尺度可以通过不同的方式和方法来定义。不同的、用于确定复杂性尺度的方法在此从现有技术中已知(比如参见文献[2])。在一种特别优选的实施方式中,通过所述函数关系的描述长度来表示所述复杂性尺度,其中所述描述长度越小,根据所述复杂性尺度的复杂性就越小。所述描述长度在一种特别优选的实施方式中包括所述函数关系的二进制表示或者ASCII表示的长度和/或通过所述函数关系来表示的分析树中的节点的数目和/或所述函数关系的可调节的参数的数目。在此,所述函数关系的二进制表示或者ASCII表示的长度越小或者说所述分析树中的节点的数目越小或者说所述可调节的参数的数目越小,根据所述复杂性尺度的复杂性就越小。在此通过相应的二进制代码或ASCII码的长度来表示所述二进制表示或ASCII表示的长度。从函数关系中编制分析树,这一点本身从现有技术中为人所知并且因此不作详细解释。
[0016]在根据本发明的方法的另一种变型方案中,在步骤b)中所提供的行动选择策略建立在专家知识的基础上。也就是说,由专家来预先给定所述行动选择策略。这些行动选择策略被保存在存储器中并且在所述方法的步骤b)中被读出。
[0017]在根据本发明的方法的另一种特别优选的变型方案中,借助于基因编程和/或在粒子群优化的基础上实施所述步骤b)和C)。在这些方法中,逐步地产生新的行动选择策略,并且将其添加到总体中,其中又将具有较差的评估尺度的行动选择策略从所述总体中抛弃。用于进行基因编程或粒子群优化的方法在现有技术中被充分公开,并且因此不再进一步详细描述。
[0018]在根据本发明的方法的另一种设计方案中,在步骤b)中如此产生所述行动选择策略,从而从预先确定的最佳的行动选择策略中推导出所述行动选择策略。所述预先确定的最佳的行动选择策略在此可以相当于来自根据本发明的方法的步骤c)的、预先给定的最佳的行动选择策略。所述预先确定的最佳的行动选择策略通常具有相应的复杂性尺度,所述复杂性尺度的复杂性显著高于所述预先确定的复
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1