管理系统的起始 点。或者,交互式技术可以从例如随机选择的占空比开始。不过,应当指出,与使用随机选择 的占空比参数相比,与使用最优跨层占空比估计相结合可以为交互式睡眠管理系统使得成 本最小化(例如,能量、带宽和延迟),以实现最优性能。
[0162] 图5示意性示出了根据范例的交互式睡眠管理过程。在图5中可以看出,交互式睡 眠管理过程能够在步骤52处从图2的跨层占空比优化开始,或者可以在步骤54从链路级占 空比的随机值开始。不论起点在哪里,该过程都进行到步骤56,在此,将如下所述,基于感测 历史和事件的严重程度,执行动态交互式睡眠管理过程。
[0163] 在交互式睡眠管理系统中提出了两种关键技术:
[0164] ?关于网络状况的动态更新:提出了使用多级动态贝叶斯博弈论对感测现象和 M2M网络之间的交互进行建模。博弈动态学习网络中的流量状况,并相应地引导M2M装置调 谐其睡眠占空比。
[0165] ?睡眠占空比参数的交互式控制:基于提供的与网络条件相关的动态更新,提出 了一种用于M2M通信的交互式睡眠管理系统。这种睡眠管理系统从网络条件分析开始,给定 更新的网络条件和应用以及本地节点之间的拓扑关系,有效率地调节整个网络中的睡眠占 空比参数。这些更新和调节能够通过例如动态贝叶斯博弈模型或交互式机器学习技术来完 成。
[0166] 原则上,利用博弈理论方法和用于连续学习网络的博弈均衡状态,将M2M网络操作 建模为响应于环境改变的动态网络。博弈的均衡条件获得了在竞争状况下的准确可靠的解 (与M2M网络面对的状况相同)。这样的预测与跨层占空比优化以及应用和拓扑要求结合,方 便了整个改变网络内占空比参数的调谐。
[0167] 注意,所有以上技术未必限于M2M通信设置或能量效率的优化,并可以容易扩展到 以能量最小化或任何其他目的为重点的任何自组织网络设置,例如用于具有异质应用的自 组织网络的路由和占空比管理、用于具有分裂控制平面的异质蜂窝网络的多路访问和用于 具有不确定信息的跨层CDMA网络的博弈理论功率控制。
[0168] 考虑图1的异质通信网络10,其包括网络,该网络包括多个M2M节点14、16和M2M网 关18。如果网络不随时间变化并由于随机事件而改变,上述用于估计跨层占空比优化的过 程足以使总能量最小化。正常情况下,会要求任何支持异质应用的M2M网络处理周期性和随 机的突发流量并面对改变的拓扑结构。在用于静态和周期性睡眠和醒来操作时,流量的随 机突发性质和改变的拓扑结构限制着网络对感测现象的响应,这能够导致具有高度改变的 性能,导致例如服务质量下降。
[0169] 动态博弈和策略
[0170] 为了解决总体感测中的随机改变,提出了一种基于动态贝叶斯博弈论的自适应网 络架构对感测现象和网络交互进行建模。提出的方法在网络的流量条件改变时就向资源约 束的节点提供占空比参数和网络连接,并相应地令M2M节点调节它们的睡眠占空比。如下定 义根据范例的两玩家静态贝叶斯博弈:
[0171] -个玩家代表总体感测现象,被标识为玩家i。另一个玩家(标识为玩家j)代表被 设计成检测感测现象并做出响应的一组M2M节点。
[0172] 对于玩家的动作策略,玩家i具有如下动作集合:
[0173] 1.使用现象触发策略(T),或
[0174] 2.不使用现象触发策略(NT)。
[0175] 玩家i的动作策略是独立且随机的。
[0176] 玩家j具有如下动作集:
[0177] 1.使用睡眠、转变和传输策略(STT)(由于预配置的周期性唤醒或现象触发,节点 从睡眠模式变成活动模式,执行感测和数据上载,最后返回到睡眠模式)。
[0178] 2.使用睡眠和转变策略(ST)(由于预配置的周期性唤醒触发,传感器节点从睡眠 模式变成活动模式,执行感测而不进行数据上载,最后返回到睡眠模式)。
[0179] 3.使用睡眠策略(S)(传感器节点保持在睡眠模式中)。
[0180] 上述动作策略覆盖了所有潜在的玩家i和j的动作。
[0181] 由于玩家i的动作选择对于玩家j而言是未知的,如果传感器现象正在被视为关键 (critical)状态,这种博弈逻辑上采用T和NT策略,仅在传感器现象被视为正常(normal)状 态时才使用NT策略。这样的不确定信任存在于玩家i的类型上(玩家i的关键或正常状态对 于玩家j而言是私密信息),但反之不是这样。
[0182] 表2示出了根据范例的贝叶斯博弈的策略形式和偿付矩阵。
[0183] 玩家 j
[0187] 成本和偿付之间的交互关系
[0188] 表2给出了玩家i和j的策略形式,并汇总了玩家策略的不同组合的偿付函数。在博 弈矩阵中,任一玩家都以完成其目标为目的,为其自己赢得报酬W,其中W>0,而竞争玩家招 致损失-W。这样的模型假设在博弈玩家之间有着相等的盈亏。这是符合逻辑的,因为双方都 因为自身的原因以自私方式操作。例如,玩家j被设置成成功识别并报告玩家i的触发。利用 这样的成功,玩家j赢得报酬W,但玩家i支付价格,-W,反之亦然。
[0189] 在这种交互中,可能节点的触发检测不是100%的可靠,因此α代表给定任何实际 触发时的正触发检测概率,而β代表未给定任何实际触发时检测到触发的虚警概率(这是指 在未产生任何触发时检测显示为肯定结论时的虚假报警),α、βΕ [0,1 ]。运行任何动作策略 还引入了成本,其取决于所选的动作。分别由CT、CSTT、C ST和Cs指示生成触发Τ和使用STT、ST 和S策略的成本;P'是误检测的惩罚;其中所有值都大于0且小于W。出于在博弈中理性交互 的目的配置相应的成本参数,同时考虑M2M通信中的因素(物理和网络要求)。
[0190]玩家j的动作策略的成本包括两个标准,即能量和带宽,因为它们是无线通信中最 重要的资源。玩家i的动作策略成本是虚数值0。也可以在用于无线通信的币值中对这样的 成本参数和报酬建模。在这一表格中,玩家i和j的预期偿付(EP)等于预期报酬及其对应成 本与策略组合之和。它计算每对具有参数K的策略的虚拟输出,参数K代表一个博弈级中产 生的触发数量。这一参数与传感器流量(其关联到针对链路级优化中的M2M节点η的有效载 荷参数匕以及这种参数的聚合值,该聚合值由网络级优化中的异质应用和本地邻居关系的 共同感测目标确定)相关。
[0191]玩家i的理性行为是在任何地方/任何时候生成现象,而玩家j的理性行为是有效 率地报告所感测现象。这种性质导致自私行为,为此玩家仅专注于自身目标的成功(使其自 己的偿付度量最大化)。如果一个玩家的偿付最大化,而另一个还有提升空间,这样的策略 组合将不会被两个玩家都相互接受。两个玩家都同意参与的唯一条件是使用均衡策略组 合,其中他们相信实现了其最大偿付(相互最优化)。因此,针对所提出博弈模型的贝叶斯纳 什均衡(BNE)被分析。
[0192] 贝叶斯纳什均衡
[0193] 考虑不确定类型的玩家i(正常或关键),设计概率参数μ以评估这种不确定性。可 以将这一概率参数μ看做玩家j对玩家i类型的信任。在这种分析中,μ是玩家做出决策时共 同的优先考虑事项。
[0194] 如果玩家i选择策略集(如果其类型为关键,选择Τ,如果是正常,选择NT),玩家j的 STT、ST和S策略的预期偿付分别指示为EPj(STT)、EPj(ST)和EPj(S)。表3汇总了所提出的博 弈的均衡关系:
[0195]
[0196] 表3
[0197] 类似地,如果玩家i选择策略集(如果类型为关键,选择NT,如果为正常,选择NT), 用于玩家j的优势策略是使用策略S,无论μ的值是多少。在这样的情况下,如果玩家i的类型 为关键,玩家i的最佳策略将变成T。这种分析简化到前一种情况,获得非纯粹的BNE。
[0198] 混合BNE策略:
[0199] 利用以上分析,未找到针对整个博弈的纯粹BNE策略集。因此,导出混合策略BNE。 令P为类型是关键时玩家i产生任何触发的概率。针对概率P,表述玩家j使用STT、ST和S的预 期偿付。对于玩家i策略的均衡,应用EPj (S) = EPj (non S) = EPj (STT) +EPj (ST)。这会导出使 用T策略的玩家i的概率P*。类似地,计算玩家j的策略Q*的均衡。导出的混合BNE策略集如 下:
[0200] ?如果玩家i的类型是关键,玩家i和j分别使用概率为P*和Q*的策略集
[0201] ?如果玩家i的类型为正常,玩家i仅使用NT
[0202] ?玩家j对玩家i类型为关键的信任为μ。
[0203] 其中
[0205] 这种情况在以下表4中汇总:
[0206]
[0207] 表 4
[0208] 利用这样的BNE分析,可以设计睡眠管理策略以实现网络中相互接受的偿付。
[0209] 动态贝叶斯博弈--对网络改变做出解释
[0210]以上BNE分析假设玩家交互的共同优先考虑项为μ。在实际应用中,这样的参数取 决于网络环境和玩家的交互。例如,如果网络中节点的流量产生很高,可以分配μ的高值。因 此,可以将上述贝叶斯博弈模型扩展到演化动态贝叶斯博弈(evolutionary and dynamic Bayesian game),对此玩家j根据博弈历史连续更新其对玩家i类型的信任。这种连续博弈 是在η个博弈级中运行的,每级的持续时间都等于唤醒周期的平均间隔。玩家在每个游戏级 中的偿付保持相同(在博弈进行时,玩家偿付没有折扣)。令出(〇为玩家i直到博弈级t时的 历史概况,OA^t)为玩家i在博弈级t的观测动作,Ph为玩家i的私有类型(关键或正常),_ 为玩家i的所有可能私有类型,为观测成功率(正确观测到事件的概率),β〇为观测事件的 误报警概率。基于贝叶斯规则,导出玩家j对玩家i为关键类型的后验信任如下。
[0212]图6示意性地示出了上述迭代信任预测过程。在图6中可以看出,过程开始于步骤 62,在此开始多级动态贝叶斯博弈。在步骤64,如表2中所示,针对不同策略对利用偿付函数 形成静态贝叶斯博弈。在步骤66,进行贝叶斯纳什均衡分析。在步骤67,进行后验信任更新, 其考虑了动作历史68和观测的动作69。
[0213] 为M2M通信应用动态贝叶斯博弈
[0214] 图7示出了睡眠控制操作的范例。在图7中,接入网络节点服务网关(SG)与第一传 感器节点(节点1)、非常接近第一传感器节点的第二传感器节点(节点2)以及远离第一和第 二传感器节点的第三传感器节点(节点3)通信。一开始,节点1、节点2和节点3的占空比具有 长的感测间隔TD。亦即,每个传感器节点以时间间隔TD都