在现代flow matching model中,通常定义t=0,x_0:e~N(0,1),t=1,x...

Tạo vào: 17 tháng 6, 2025

Trả lời bằng O3 bởi Chat01

Câu hỏi

在现代flow matching model中,通常定义t=0,x_0:eN(0,1),t=1,x1:xp(x),这里假设p(x)是图像的分布,当定义直线流x_t=t*x+(1-t)*e为flow路径,速度场v=dx/dt=x-e,速度场是直线流,为何实际训练出来之后往往不是直线(一步推理往往无法得到理想结果)

Suy nghĩ

Let’s assume xx and ee are independent and standard normal. For each xtx_t, I compute the posterior distribution of xx given xtx_t. The result behaves as a joint Gaussian with a linear expectation of xx, but with a varying coefficient influenced by tt. As tt changes, the coefficient moves from -1 to 1, and in higher dimensions, this leads to a nonlinear behavior, which we can demonstrate further in the analysis.

Thought for 1m 5s

Trả lời

为什么「理论上的直线流」在真实训练后会弯曲

下面把问题拆成两层:(i) 理论上 v(x,t)=x-e 真的能完全由 x_t 决定吗? (ii) 就算真能决定,用一次 Euler 步是不是就足够?


1 . 信息丢失: x_t 只保留了一维混合,而 v 需要区分两个端点

  • 训练时网络只看到 (xt,t)(x_t,t)
  • 但是标签 v=xev^\star=x-e 依赖 同时 知道 (x,e)(x,e)
  • 对于同一个 (xt,t)(x_t,t) 可以对应无数对 (x,e)(x,e),因此 vv^\star 不是 (xt,t)(x_t,t) 的单值函数
  • 最优网络只能学到条件期望 v~(xt,t)=E[xext,t],\tilde v(x_t,t)=\mathbb E[x-e\mid x_t, t], 这在一般分布下是一个非线性、随 t 变化的缩放/弯曲场
    例如在高维高斯简化下 v~(xt,t)=2t1t2+(1t)2xt,\tilde v(x_t,t)=\frac{2t-1}{t^{2}+(1-t)^{2}}\,x_t, 系数随 t 变化而变形,已由闭式分析与实验证实 arxiv.org

2 . 轨迹交叉 → 单值向量场必须“调和”冲突

  • 直线插值 xt=(1t)e+txx_t=(1-t)e+tx 会让许多不同样本在中间时刻 相遇于同一点
    那些样本的“真”速度指向不同方向,互相冲突。
  • 连续可逆流要求 同一点只能有一个速度,网络只能取加权平均→轨迹自然被挤弯,避免交叉 iclr-blogposts.github.io

3 . 归纳偏置与容量限制

  • CNN/ViT 等网络倾向输出平滑场,无法表达大幅度分段线性;
  • 训练时常用 w(t)(1t)w(t)\propto (1-t) 等权重,中段误差被强调,首尾被弱化,进一步把速度场压到“更温和”的曲线。

4 . 采样时“一步 Euler” 与真实 ODE 的误差

即便我们奇迹般学到了正确的 v~\tilde v
一次 Euler 近似

x1x0+v(x0,0)Δt(Δt=1)x_1 \approx x_0 + v(x_0,0)\,\Delta t\quad(\Delta t=1)

的局部截断误差是 O(Δt2)=O(1)O(\Delta t^2)=O(1)
在弯曲场里误差会把样本甩出数据流管;
因此需要 Heun / RK4 / DPM-Solver 等多步或自适应方法才能得到高保真图像。


小结与实用启示

现象根本原因应对办法
学出的流非直线xtx_t(x,e)(x,e) 非单射,网络学到的是条件期望改用 Closed-Form CFM 或显式编码端点信息(如 ReFlow、FLUX)
一步采样质量差ODE 离散误差 + 速度场缩放用高阶/多步求解器或训练 one–step rectified flows
t≈0/1 预测偏差采样权重/正则化使端点低权重加重端点 loss 或使用分段时间重采样

因此,“理论直线 ≠ 训练结果” 并不是模型训练失败,而是由观测信息不足、矛盾轨迹需要折中、网络容量与数值积分误差共同导致的必然现象。

Chia sẻ Q&A này