在现代flow matching model中，通常定义t=0，x_0：e~N(0,1),t=1,x...

下面把问题拆成两层：(i) 理论上 v(x,t)=x-e 真的能完全由 x_t 决定吗？ (ii) 就算真能决定，用一次 Euler 步是不是就足够？

训练时网络只看到 $(x_t,t)$ 。
但是标签 $v^\star=x-e$ 依赖同时知道 $(x,e)$ 。
对于同一个 $(x_t,t)$ 可以对应无数对 $(x,e)$ ，因此 $v^\star$ 不是 $(x_t,t)$ 的单值函数。
最优网络只能学到条件期望 $\tilde v(x_t,t)=\mathbb E[x-e\mid x_t, t],$ 这在一般分布下是一个非线性、随 t 变化的缩放/弯曲场。
例如在高维高斯简化下 $\tilde v(x_t,t)=\frac{2t-1}{t^{2}+(1-t)^{2}}\,x_t,$ 系数随 t 变化而变形，已由闭式分析与实验证实 arxiv.org。

即便我们奇迹般学到了正确的 $\tilde v$ ，
一次 Euler 近似

x_1 \approx x_0 + v(x_0,0)\,\Delta t\quad(\Delta t=1)

的局部截断误差是 $O(\Delta t^2)=O(1)$ 。
在弯曲场里误差会把样本甩出数据流管；
因此需要 Heun / RK4 / DPM-Solver 等多步或自适应方法才能得到高保真图像。

现象	根本原因	应对办法
学出的流非直线	$x_t$ 对 $(x,e)$ 非单射，网络学到的是条件期望	改用 Closed-Form CFM 或显式编码端点信息（如 ReFlow、FLUX）
一步采样质量差	ODE 离散误差 + 速度场缩放	用高阶/多步求解器或训练 one–step rectified flows
t≈0/1 预测偏差	采样权重/正则化使端点低权重	加重端点 loss 或使用分段时间重采样

因此，“理论直线 ≠ 训练结果” 并不是模型训练失败，而是由观测信息不足、矛盾轨迹需要折中、网络容量与数值积分误差共同导致的必然现象。

Domanda