一、背景
- 照片级图像复原 (Photo‑realistic Image Restoration, PIR) 同时追求低失真(如 PSNR、SSIM)和高感知质量(如 FID、NIQE)。然而根据 distortion‑perception trade‑off,二者往往相互牵制。常见的“后验采样”策略从 pX∣Y 中取样,可保证生成分布与真实分布一致(完美感知指标),但其均方误差 (MSE) 固定为“后验均值”(MMSE) 的两倍,远非最优 。
二、动机
作者希望找到 在保持完美感知的前提下,MSE 最小的估计器 X^0。最新理论表明:
- 先计算后验均值 X^\*=E[X∣Y];
- 再把 X^\* 最优传输到真实图像分布即可得到 X^0 。
受到这一结论启发,论文提出 Posterior‑Mean Rectified Flow (PMRF) ——利用“整流流 (rectified flow)”来近似这张最优传输映射,从而同时兼顾失真与感知。
三、方法原理
1. 失真‑感知函数
D(P)=pX^∣YminE[Δ(X,X^)]s.t.d(pX,pX^)≤P
- P=∞ 时的解即 后验均值 (Problem 2);
- P=0 时的解即 本文目标 X^0 (Problem 3) 。
2. 最优传输表达
pU,V∈Π(pX,pX^\*)minE∥U−V∥2
Π 是所有边缘为 pX、pX^\* 的联合分布集合;其最优解给出从 X^\* 到 X 的最优传输计划 。
3. Rectified Flow
- 定义 直线前向过程 Zt=tZ1+(1−t)Z0。
- 只需学习向量场
vRF(Zt,t)=E[Z1−Z0∣Zt]
使 ODE dZt=vRFdt 的解把 Z0 送到 Z1 。
- 若 Z0 与 Z1 的联合接近最优传输,此流即可近似最优映射。
四、数学推导亮点
- Proposition 1:当不加噪声 (σs=0) 且 ODE 解唯一时,PMRF 输出 Z1
- 与真实分布同分布(完美感知);
- MSE 不高于后验采样;
- 在 X−X^\* 条件分布非退化时,MSE 严格更小 。
- 示例 1(加性高斯噪声退化)展示:PMRF 解与理论最优 X^0 完全一致 。
五、算法细节(Algorithm 1)
阶段 | 目标 | 损失函数 / 操作 |
---|
Stage 1 | 训练预测器 fω 得到后验均值近似 X^\*=fω(Y) | minωE∥X−fω(Y)∥2 |
Stage 2 | 训练向量场 vθ 逼近最优传输 | 对随机 t∼U[0,1] 与 Z0=X^\*+σsϵ(ϵ∼N(0,I))最小化 |
θmin∫01E∥(X−Z0)−vθ(Zt,t)∥2dt | | |
推断 | 输入 y 时:1) 取 x0=fω(y)+σsϵ;2) 用欧拉或 ODE 求解器沿 vθ 迭代 K 步得到 x^。 | |
噪声 σs:解决源、目标流形维度不匹配的奇异性;过大损失失真,过小损失感知,需要调节 。
实践要点
- 网络:论文用 HDiT 作为向量场、SwinIR 作为 fω(面部复原任务)。
- 训练:AdamW,批次 256;对 t 采用分层均匀采样 。
- Inference steps K 越多感知指标越好、失真略升,体现 trade‑off(表 2‑6) 。
- 可进一步 reflow(多次迭代训练‑迁移)进一步逼近最优传输 。
六、总结
PMRF 通过“后验均值 + 整流流”两步实现了:
- 理论:逼近在完美感知约束下 MSE 极小的理想估计器;
- 实践:在多种复原任务中全面超越后验采样、GAN 混合损失及“流自退化图像”的方案,达成同时低失真与高感知的统一。