在主动推理的基础上,我们引入了时间一致性方法(Temporal Consistency)\upcit...

创建于:2025年2月27日

使用 O1 回答 Chat01

问题

在主动推理的基础上,我们引入了时间一致性方法(Temporal Consistency)\upcite{zhao2023simplified},作为传统集成方法的替代方案,将其视为生成模型,用以降低训练成本并提搞系统性能。如图\ref{cp3:aif_arc}(a)所示,我们首先通过编码器st=eθ(ot)s_t = e_\theta(o_t)将高维状态空间oo转换为智能体关于环境的信念ss,这代表了智能体对环境理解的内在模型。同时,我们将来自环境反馈的外部奖励rr(也称偏好 prefpref)以及智能体的信念误差bebe融入当前信念ss中以进行学习。然后我们使用编码器生成的信念ss及其对应的动作aa来预测未来的信念s^t+h\hat{s}_{t+h}。随后采用时间一致性方法,通过对预测信念s^t+h\hat{s}_{t+h}与固定编码器生成的实际信念st+hs_{t+h}使用负余弦距离(Negative Cosine Distance)损失的自回归训练,构建出智能体的内部信念世界。采用这种方法,我们可以将高维的观测抽象为内在的低维信念,从而在确保智能体在高维环境中有效性和数据利用率,相较于传统主动推理方法显著降低训练成本。假设^\hat{} 表示预测值, ~\tilde{} 表示目标值,生成模型的更新采用以下损失函数表示:
\begin{equation}
L_\phi = \sum^H_{h=0}\left[||\hat{r}{t+h}-\tilde{r}{t+h}||^2_2 + ||\hat{be}{t+h}-\tilde{be}{t+h}||^2_2 - \left(\frac{\hat{s}{t+h}}{||\hat{s}{t+h}||2}\right)^T\frac{\left(\tilde{s}{t+h}\right)}{\left(||\tilde{s}_{t+h}||_2\right)}\right]
\end{equation}

考虑到估计长期的累计变分自由能,我们结合了DDPG\upcite{lillicrap2015continuous}的策略和价值网络。如图\ref{cp3:aif_arc}(b),我们将信念st=eθ(ot)s_t =e_\theta(o_t)作为策略函数的输入,并通过信念和动作的组合(st,at)(s_t,a_t)学习长期积累的变分自由能自由能GG。通过策略网络,智能体能够学习最小化变分自由能的最优策略。具体来说,价值函数和策略函数的更新目标是最小化以下目标函数:
\begin{align}
&L_\Psi = ||\min_{k=1,2} Q_{\Psi_k}(s_t, a_t) - (\sum^{n-1}{h=0} \gamma^h\tilde{F}{t+h} + \gamma^n \min_{k=1,2} Q_{\Psi^{tar}k}(s{t+n}, a_{t+n}))||^2_2 \label{cp3:critic}
\
&L_\pi = -\min_{k=1,2} Q_{\Psi_k}(s_t,a_t) \label{cp3:actor}
\end{align}

在公式\eqref{cp3:critic}和\eqref{cp3:actor}中,我们采用了双延迟Q网络(Double Delay Q Network)\upcite{hasselt2010double},确保价值网络和策略网络的稳定性,mink=1,2QΨk\min_{k=1,2}Q_{\Psi_k}表示双延迟Q网络中估计值较小的网络输出。

进一步说,我们基于主动推理框架将模型分为生成模型和规划模型,生成模型主要负责理解和感知环境,而规划者则根据代理的信念进行策略优化,所有网络均由多层感知器构成。生成模型如图\ref{cp3:aif_arc}(a) 所示,该模型通过双信念编码器和动态模型感知外部世界。具体而言,首先对当前状态进行编码,然后利用动态模型预测未来的信念、信念误差和偏好。在训练过程中,先验编码器的参数保持冻结,并通过指数移动平均(EMA)方法进行更新。规划模型如图\ref{cp3:aif_arc}(b)所示,我们在规划模型中采用了模型预测路径积分方法\upcite{williams2016aggressive}。该方法从策略网络和随机高斯动作分布中采样N+MN+M条预测路径,然后选择长期累计自由能GG最低的前kk个动作的均值作为下一次迭代中高斯分布的初始值。在经过JJ次迭代后,选择出最小化自由能的策略。基于TC-AIF的卸载优化策略可以表示为表\ref{cp3:algo}。

思考

Analyzing reinforcement learning

OK, let me see. The text discusses integrating "动推理" and "时间一致性" into a reinforcement learning method, including references to specific studies and models. This hints at their relevance.

Detailing the model

I’m piecing together the negative cosine distance objective function, DDPG with double delay Q networks, and a planning approach. The aim is to potentially understand or improve the method.

Focusing on clarity

I'm examining the user's request for refining or summarizing the text, noting references to a unified approach for AIF and time consistency, and considering the need for a bilingual version.

Assessing progress

OK, I'm considering the text's exploration of generative models for offloading optimization, with no specific request. There’s a need to clarify that no direct question is posed.

Offering suggestions

I'm exploring various options to assist the user, including summarizing or clarifying the text, generating a latex snippet, or suggesting grammar improvement, based on the provided context.

Reasoned for 14 seconds

回答

下面是对上述内容的要点梳理和思路说明,若您有其他特定需求(如润色、补充背景、代码示例、英文翻译等),欢迎进一步告知。


核心思路概述

整套方法基于「主动推理 (Active Inference)」框架,并引入了「时间一致性 (Temporal Consistency, TC)」思想,主要分为两个部分:生成模型(负责环境理解和内部状态预测)与规划模型(负责基于内部信念进行策略优化)。

  1. 生成模型:时间一致性方法(TC-AIF)

    • 状态编码
      使用编码器 eθ()e_\theta(\cdot) 将环境观测 oto_t 映射到内部低维信念 st=eθ(ot)s_t = e_\theta(o_t)。信念 sts_t 相当于智能体对环境的内在理解模型。

    • 信念误差与偏好(奖励)
      将环境给予的外部奖励 rr(文中也称作 prefpref)以及智能体的信念误差 bebe 一并融入到当前信念中,用于更新或生成未来信念。

    • 时间一致性预测
      给定当前的信念 sts_t 和执行的动作 ata_t,预测未来时刻的信念 s^t+h\hat{s}_{t+h}。为了让预测的信念与真实信念保持一致,采用“负余弦距离(Negative Cosine Distance)”损失来进行自回归训练,即比较 s^t+h\hat{s}_{t+h} 和由编码器得到的真实信念 st+hs_{t+h}。这样能更好地保证内部模型在时间上的一致性。

    • 生成模型的损失函数
      定义如下(其中 ^\hat{\cdot} 表示预测值,~\tilde{\cdot} 表示目标值):

      Lϕ=h=0H[r^t+hr~t+h22+be^t+hbe~t+h22(s^t+hs^t+h2)T(s~t+hs~t+h2)]. L_\phi = \sum^H_{h=0}\Bigl[ \|\hat{r}_{t+h} - \tilde{r}_{t+h}\|_2^2 + \|\hat{be}_{t+h} - \tilde{be}_{t+h}\|_2^2 - \Bigl(\frac{\hat{s}_{t+h}}{\|\hat{s}_{t+h}\|_2}\Bigr)^T \Bigl(\frac{\tilde{s}_{t+h}}{\|\tilde{s}_{t+h}\|_2}\Bigr) \Bigr].

      这三部分分别对应奖励/偏好预测的准确性、信念误差预测的准确性和信念向量在方向上的一致性(用负余弦相似度衡量)。

  2. 规划模型:基于变分自由能的策略优化

    • 引入 DDPG 结构
      利用 DDPG(Deep Deterministic Policy Gradient)\citelillicrap2015continuous^\text{\cite{lillicrap2015continuous}} 的价值网络 QΨk(s,a)Q_{\Psi_k}(s,a) 和策略网络 πθ(s)\pi_\theta(s) 来估计并最小化长期的「变分自由能」(在此可类比 Q 值或回报)。

    • 价值函数与策略函数更新
      参考双延迟 Q 网络(Double Delay Q Network)\citehasselt2010double^\text{\cite{hasselt2010double}},定义目标:

      LΨ=mink=1,2QΨk(st,at)(h=0n1γhF~t+h+γnmink=1,2QΨktar(st+n,at+n))22, L_\Psi = \Bigl\|\min_{k=1,2} Q_{\Psi_k}(s_t, a_t) - \Bigl(\sum^{n-1}_{h=0} \gamma^h \tilde{F}_{t+h} + \gamma^n \min_{k=1,2} Q_{\Psi^{tar}_k}(s_{t+n}, a_{t+n})\Bigr)\Bigr\|_2^2, Lπ=mink=1,2QΨk(st,at), L_\pi = -\min_{k=1,2} Q_{\Psi_k}(s_t,a_t),

      其中 F~t+h\tilde{F}_{t+h} 即实际或估计的「变分自由能」,γ\gamma 为折扣因子。这样设计能保证价值网络的稳定训练并为策略网络提供较稳定的优化目标。

    • 规划过程

      • 先由生成模型得到内部信念 sts_t
      • 利用模型预测路径积分\citewilliams2016aggressive^\text{\cite{williams2016aggressive}}的方法,从当前策略和带噪声的动作分布中采样多条未来轨迹(每条轨迹有若干步展开),计算每条轨迹在未来的「累计自由能(或累计损失)」。
      • 选取若干条自由能最小的轨迹(相当于回报最大的轨迹)作为“精英样本”,将这些精英样本动作的平均值用于下一次采样的分布初始化。通过多次迭代后,逐渐逼近自由能最优的动作分布。

方法特点

  1. 高维观测到低维信念的转化
    通过引入时间一致性自回归训练,能在不损失关键信息的情况下,将环境的高维信息“压缩”到内在信念空间中,从而降低训练成本并提高数据效率。

  2. 结合主动推理和深度强化学习
    主动推理中的「最小化变分自由能」思想与 DDPG 结构相融合,使智能体可以在学习“世界模型”(生成模型)的同时,学习基于变分自由能最优的策略。

  3. 时间一致性的自回归训练
    通过对比 s^t+h\hat{s}_{t+h}st+hs_{t+h}(真实信念编码),在时间维度上保证了内部生成模型对未来的预测一致性。这在长时预测场景中可以提高稳定性和泛化能力。

  4. 规划时的路径积分 + 精英采样
    在策略训练阶段,采用了模型预测路径积分的方法,从采样中选最优部分来更新策略分布。该思路与基于进化策略或 CEM(Cross-Entropy Method)的精英采样思想相似,可在不需要大批量真实环境采样的情况下,充分利用内部生成模型所提供的未来预测。


伪代码示例(表格形式)

以下给出一个简化的伪代码思路,用于说明 TC-AIF 的训练与规划流程。假设您在正文中需配合表格或算法框展示,可参考如下结构(仅示例,具体变量名、迭代过程可据需求调整):

latex
\begin{algorithm}[htb] \caption{基于TC-AIF的卸载优化策略} \label{cp3:algo} \KwIn{环境观测 $o_t$, 奖励 $r_t$ (或偏好 $pref$), 信念误差 $be$, 训练步数 $T$} \KwOut{训练好的生成模型参数 $\phi$、策略网络参数 $\pi$、价值网络参数 $\Psi$} 初始化:随机初始化生成模型参数 $\phi$,策略网络参数 $\pi$,价值网络参数 $\Psi_1,\Psi_2$\\ 初始化:目标网络参数 $\Psi^{tar}_1,\Psi^{tar}_2$ 与实际网络保持一致;\\ \For{$t = 1$ \KwTo $T$}{ 从环境或数据缓冲中读取$(o_t, a_t, r_t, be_t, o_{t+1})$\\ 得到当前信念 $s_t = e_\theta(o_t)$ 与下一时刻信念 $s_{t+1} = e_\theta(o_{t+1})$\\ 使用动态模型预测 $\hat{s}_{t+h}, \hat{r}_{t+h}, \hat{be}_{t+h}$\\ 计算生成模型损失 $L_\phi$ 并更新 $\phi$ (如式(1)所示);\\ 计算价值函数目标 $y = \sum_{h=0}^{n-1}\gamma^h \tilde{F}_{t+h} + \gamma^n \min_{k=1,2} Q_{\Psi^{tar}_k}(s_{t+n}, a_{t+n})$\\ 计算价值网络损失 $L_\Psi = \| \min_{k=1,2} Q_{\Psi_k}(s_t,a_t) - y \|_2^2$ 并更新 $\Psi_1, \Psi_2$\\ 计算策略网络损失 $L_\pi = -\min_{k=1,2} Q_{\Psi_k}(s_t, \pi(s_t))$ 并更新 $\pi$\\ 定期将 $\Psi^{tar}_k \leftarrow \tau \Psi_k + (1-\tau)\Psi^{tar}_k$ (软更新);\\ \If{需要进行模型预测路径积分}{ 从策略网络 $\pi$ 和随机高斯分布中采样 $N+M$ 条预测轨迹;\\ 根据累计自由能 $G$ 选择前 $k$ 条轨迹;将这些轨迹动作均值作为下一次采样分布初始值;\\ 重复 $J$ 次迭代,得到最终动作/策略;\\ } } \end{algorithm}

参考文献

如果需要在文中引用并统一在文末给出参考文献列表,示例(BibTeX)大致如下(需根据您的论文要求或 BibTex 数据库内容做相应修改):

bibtex
@article{zhao2023simplified, title={Simplified Temporal Consistency for ...}, author={Zhao, ...}, journal={...}, year={2023}, ... } @inproceedings{lillicrap2015continuous, title={Continuous control with deep reinforcement learning}, author={Lillicrap, Timothy P and Hunt, Jonathan J and Pritzel, Alexander and others}, booktitle={ICLR}, year={2016} } @inproceedings{hasselt2010double, title={Double Q-learning}, author={van Hasselt, Hado}, booktitle={NIPS}, year={2010} } @inproceedings{williams2016aggressive, title={Aggressive driving with model predictive path integral control}, author={Williams, Grady and et al.}, booktitle={ICRA}, year={2016} }

总结

  • 生成模型(TC-AIF) 通过时间一致性损失让智能体学会更准确、更稳定地预测未来的内部信念、信念误差和偏好,并且在高维场景下能显著降低训练成本。
  • 规划模型 结合了 DDPG 的价值网络和策略网络,用以估计并最小化在主动推理框架下的「变分自由能」。
  • 路径积分/精英采样 可以有效利用内部生成模型的预测能力,在虚拟轨迹中选择最优动作更新策略,减少对真实环境交互的过度依赖,提升训练效率。

如果您还需要更详细的数学推导、公式对照、实验流程或具体程序实现,欢迎告诉我以便进一步展开。

分享这个问答