解释这里的误差为什么满足高斯分布

Question

解释这里的误差为什么满足高斯分布

Answer 1

在大多数线性回归教材或论文里，都把随机误差 ε 假设为服从零均值、方差为 σₑ² 的高斯分布 N(0, σₑ²)。这种“高斯误差”并不是数学定律，而是一种经验合理、在理论和计算上都很方便的建模假设。主要理由可以概括为四点：

1. 误差往往是许多独立微小扰动的总和 → 中心极限定理

实际测量值与模型预测值之间的偏差，通常由许多独立、规模较小的因素叠加而成：

传感器/仪器的量化噪声
环境波动（温度、电压、光照等）
被遗漏的变量或模型形式偏差
当这些独立扰动的数量足够多、单个扰动的方差有限时，中心极限定理告诉我们：它们的加和会趋近正态分布。不必精确知道每个扰动的分布，只要独立且“幅度不大”，综合误差就近似高斯。

2. 许多物理测量噪声本身就近似正态

在电子、光学、热噪声等场景中，噪声来源是大量随机电子运动或光子到达事件，其统计规律本身已被实验验证为正态或可近似正态。因此，把误差建模成 N(0, σₑ²) 往往与仪器特性保持一致。

3. 推导简单：高斯假设 ⇒ 最大似然 = 最小二乘

若 ε ∼ N(0, σₑ² I)，整个样本 Y = Φw + ε 的对数似然为
$\ln p(Y\mid w,σₑ²) = -\frac{1}{2σₑ²}\lVert Y - Φw\rVert² + \text{常数},$
对 w 求最大似然就变成最小化平方误差 → 最小二乘解
$\hat w = (\Phi^{\mathsf T}\Phi)^{-1}\Phi^{\mathsf T} Y.$
若需要估计不确定度或做贝叶斯推断，高斯先验/似然还能给出解析后验、预测分布等闭式结果，计算量小、性质好。

4. 假设虽理想化，但稳健且可验证

即便真实误差不是严格高斯，只要满足 独立同分布、零均值、有限方差，最小二乘估计依旧是一致且无偏的；
如果对正态性有疑虑，可以通过残差 QQ-plot、Shapiro–Wilk 检验等方法做后验诊断，必要时改用对数变换、稳健回归或非参数方法。

小结

把 ε 设为高斯分布并非“自然真理”，而是基于

误差的多源叠加特性（中心极限）

测量噪声的经验分布

理论与计算的便利性

实践中的稳健性与可检验性

在多数工程和科研问题中，这一假设足够准确且能大幅简化推导与推断；若发现残差显著偏离正态，再考虑更复杂的误差模型即可。

Answer 2

要说明 $(\Phi^{\mathsf T}\!\Phi)^{-1}$ 为什么一定是对称矩阵，只需用到两个线性代数基本事实：

1. $\Phi^{\mathsf T}\!\Phi$ 本身就是对称矩阵

对任何实矩阵 $\Phi$ ，都有

(\Phi^{\mathsf T}\!\Phi)^{\mathsf T}= \Phi^{\mathsf T}(\Phi^{\mathsf T})^{\mathsf T}= \Phi^{\mathsf T}\!\Phi .

因此 $\Phi^{\mathsf T}\!\Phi$ 天然对称；如果 $\Phi$ 列满秩（列向量线性无关），它还是正定的，可逆。

2. 可逆对称矩阵的逆仍然对称

设 $A$ 是可逆且满足 $A=A^{\mathsf T}$ 。利用转置与逆的交换律

(A^{\mathsf T})^{-1} = (A^{-1})^{\mathsf T},

把 $A=A^{\mathsf T}$ 代入得

A^{-1} = (A^{\mathsf T})^{-1} = (A^{-1})^{\mathsf T},

即 $A^{-1}$ 与其转置相等，所以 $A^{-1}$ 也是对称矩阵。

套用到 $(\Phi^{\mathsf T}\!\Phi)^{-1}$

令 $A=\Phi^{\mathsf T}\!\Phi$ ：

$A$ 已经对称；
若 $\Phi$ 列满秩，则 $A$ 可逆；
因此由上面的性质可知 $A^{-1}=(\Phi^{\mathsf T}\!\Phi)^{-1}$ 必定对称。

补充直观
把对称正定矩阵 $A$ 做特征分解 $A=Q\Lambda Q^{\mathsf T}$ （ $Q$ 正交， $\Lambda$ 为正对角阵），则
$A^{-1}=Q\Lambda^{-1}Q^{\mathsf T},$
其中 $\Lambda^{-1}$ 仍是对角阵，左右再乘 $Q,Q^{\mathsf T}$ 依旧得到对称矩阵。这给出了逆保持对称性的另一种视角。

Answer 3

在经典线性回归的误差假设里，我们同时写下

\mathbb E[\,\varepsilon_i\varepsilon_j\,]=\operatorname{Cov}[\varepsilon_i,\varepsilon_j]=0\qquad(i\neq j).

关键是要先弄清两件事：

$\mathbb E[\varepsilon_i\varepsilon_j]$ 与 $\operatorname{Cov}[\varepsilon_i,\varepsilon_j]$ 的关系
按照协方差的定义
$\operatorname{Cov}[X,Y]=\mathbb E[(X-\mathbb E[X])(Y-\mathbb E[Y])] =\mathbb E[XY]-\mathbb E[X]\;\mathbb E[Y].$
在线性回归中我们假设 每个误差项都零均值： $\mathbb E[\varepsilon_i]=\mathbb E[\varepsilon_j]=0$ 。
于是
$\operatorname{Cov}[\varepsilon_i,\varepsilon_j]=\mathbb E[\varepsilon_i\varepsilon_j]-0\cdot0 =\mathbb E[\varepsilon_i\varepsilon_j].$
这就解释了你问题里的“第一个等号”：在 零均值假设 下，误差项乘积的期望恰好等于它们的协方差。
为什么协方差（也就是乘积期望）为 0
经典假设进一步规定：
- 误差彼此 独立同分布（i.i.d.），或至少不相关；
- 方差相同 $\operatorname{Var}[\varepsilon_i]=\sigma_\varepsilon^{2}$ 。
对于 $i\neq j$ ：
- 若独立 ⇒ $\mathbb E[\varepsilon_i\varepsilon_j]=\mathbb E[\varepsilon_i]\mathbb E[\varepsilon_j]=0$ 。
- 若仅要求“不相关” ⇒ 直接设定 $\operatorname{Cov}[\varepsilon_i,\varepsilon_j]=0$ 。
两种说法等价地导致
$\mathbb E[\varepsilon_i\varepsilon_j]=\operatorname{Cov}[\varepsilon_i,\varepsilon_j]=0\qquad(i\neq j).$

小结

第一个等号成立的前提是 误差均值为零：
$\operatorname{Cov}[\varepsilon_i,\varepsilon_j]=\mathbb E[\varepsilon_i\varepsilon_j]$ 。
第二个等号（它们同为 0）来自 独立 / 不相关 的假设：不同样本点的误差互不影响。
当 $i=j$ 时，有
$\mathbb E[\varepsilon_i^2]=\operatorname{Var}[\varepsilon_i]=\sigma_\varepsilon^{2}$ ，
这就是同方差（同方差性，homoscedasticity）假设。

Answer 4

(\Phi^{\mathsf T}\Phi)^{-1}

之所以 存在（即 $\Phi^{\mathsf T}\Phi$ 可逆），关键在于 设计矩阵 $\Phi$ 的列向量线性无关。下面按逻辑顺序说明这一点。

1. $\Phi^{\mathsf T}\Phi$ 是 Gram 矩阵

记 $\Phi=[\varphi_1,\dots,\varphi_M]$ （每列是一个特征向量，维度 $N$ ）。
第 $i,j$ 元素为 $(\Phi^{\mathsf T}\Phi)_{ij} =\varphi_i^{\mathsf T}\varphi_j$ ——即列向量间的内积，构成 Gram 矩阵。
Gram 矩阵天然对称且 半正定（所有特征向量与自身的内积 ≥ 0）。

2. 正定 ⇔ 列满秩 ⇔ 可逆

定理（Gram 矩阵）
列向量 $\{\varphi_1,\dots,\varphi_M\}$ 线性无关
$\Longleftrightarrow$ Gram 矩阵 $\Phi^{\mathsf T}\Phi$ 正定
$\Longleftrightarrow$ $\det(\Phi^{\mathsf T}\Phi)>0$ 且可逆。

证明要点

充分性
若列线性无关，则对任何非零 $\mathbf{c}\in\mathbb R^{M}$
$\mathbf{c}^{\mathsf T}(\Phi^{\mathsf T}\Phi)\mathbf{c} =\|\Phi\,\mathbf{c}\|_2^{2}>0,$
故 $\Phi^{\mathsf T}\Phi$ 正定 ⇒ 可逆。
必要性
若 Gram 矩阵奇异，则存在非零 $\mathbf{c}$ 使 $\Phi^{\mathsf T}\Phi\mathbf{c}=0$ 。
上式仍等价于 $\|\Phi\,\mathbf{c}\|_2^{2}=0$ ，从而 $\Phi\,\mathbf{c}=0$ 。
这说明列向量存在线性组合为零 ⇒ 不独立。

因此 列满秩 ( $\text{rank}\,\Phi = M$ ) 是 $\Phi^{\mathsf T}\Phi$ 可逆的充要条件。

3. 与样本-特征维度的关系

典型线性回归中 $\Phi$ 维度 $N\times M$ （ $N$ 个样本， $M$ 个特征）。
必要条件： $N\ge M$ 。否则列必依赖，Gram 矩阵至少秩缺失 $M-N$ 。
充分条件：再加上列向量无多重共线性（即满秩），就能保证 $\Phi^{\mathsf T}\Phi$ 正定可逆。

4. 实务提示

如果特征间存在共线性导致 $\Phi^{\mathsf T}\Phi$ $Φ^{T} Φ$ 奇异，可用
- 剔除冗余特征
- 正则化（如岭回归在对角线加 $\lambda I$ ）
- 主成分/奇异值分解 等方法获得稳定解。

结论

只要设计矩阵 $\Phi$ 的列向量线性无关（即 $\Phi$ 列满秩），它的 Gram 矩阵 $\Phi^{\mathsf T}\Phi$ 就严格正定，因而必然可逆；
于是 $(\Phi^{\mathsf T}\Phi)^{-1}$ 必然存在。

Answer 5

下面这页 PPT 想说明的是：如果你已经知道最小二乘估计量 $\hat{\mathbf w}$ 的协方差矩阵是
$\operatorname{Cov}[\hat{\mathbf w}] = \sigma_\varepsilon^{2}(\Phi^{\mathsf T}\Phi)^{-1}$ （教材公式 1.22），那么要检验某一维参数 $\hat w_j$ 是否显著大于 0，可以直接构造一个 $z$ 统计量：

z_j \;=\; \frac{\hat w_j-0}{\sqrt{\sigma_\varepsilon^{2}\,\lambda_j}} \;=\; \frac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}} \quad\text{(公式 1.28)}

其中 $\lambda_j =\bigl[(\Phi^{\mathsf T}\Phi)^{-1}\bigr]_{jj}$ 是协方差矩阵第 $j$ 行 $j$ 列的元素（也等于矩阵对角线上的“自身方差系数”）。

推导思路

线性模型与最小二乘解
$\mathbf Y = \Phi \mathbf w + \boldsymbol\varepsilon,\qquad \hat{\mathbf w}=(\Phi^{\mathsf T}\Phi)^{-1}\Phi^{\mathsf T}\mathbf Y .$
误差假设
$\boldsymbol\varepsilon \sim \mathcal N(\mathbf 0,\sigma_\varepsilon^{2}\mathbf I)$
⇒ $\hat{\mathbf w}$ 线性变换高斯向量 → 仍服从正态分布
$\hat{\mathbf w}\sim \mathcal N\!\bigl(\mathbf w,\, \sigma_\varepsilon^{2}(\Phi^{\mathsf T}\Phi)^{-1}\bigr).$
提取第 $j$ 维方差
$\operatorname{Var}[\hat w_j]=\sigma_\varepsilon^{2}\,\lambda_j .$
构造标准化统计量
在零假设 $H_0: w_j=0$ 下
$z_j=\frac{\hat w_j-0}{\sigma_\varepsilon\sqrt{\lambda_j}} \;\;\sim\;\;\mathcal N(0,1).$

如何使用这个 $z$ 统计量

步骤	说明
1. 计算 $\hat w_j$	用常规最小二乘公式即可
2. 取出 $\lambda_j$	先求 $(\Phi^{\mathsf T}\Phi)^{-1}$ ，读第 $j$ 个对角元素
3. 代入公式得 $z_j$	$z_j=\hat w_j/(\sigma_\varepsilon\sqrt{\lambda_j})$
4. 查标准正态分布	例如 5 % 单尾检验阈值 $z_{0.95}=1.645$
5. 做决策	若 $z_j>1.645$ ，拒绝 $H_0$ ：断言 $w_j$ 显著大于 0

如果 $\sigma_\varepsilon^{2}$ 未知（现实里几乎总是如此），需用残差平方和
$\hat\sigma_\varepsilon^{2}=\tfrac{1}{N-M}\lVert\mathbf Y-\Phi\hat{\mathbf w}\rVert^{2}$
来估计，此时 $z_j$ 统计量将遵循 $t$ 分布（自由度 $N-M$ ），检验步骤完全类似，只是用 $t$ –表而不是 $z$ –表。

小结

协方差矩阵 $\sigma_\varepsilon^{2}(\Phi^{\mathsf T}\Phi)^{-1}$ 给出每个系数估计值的方差。
取对角元 $\lambda_j$ 计算标准误 $\sigma_\varepsilon\sqrt{\lambda_j}$ 。
用 估计值 / 标准误 得到 $z_j$ ，在高斯假设下服从标准正态分布。
因此可以直接做假设检验或计算 $p$ -value，判断系数是否“显著大于 0”。

Answer 6

这一步把“已知噪声方差 σ ₑ² 时的 z 统计量”升级为“噪声方差未知时也能用的 t 统计量”。

1. 从 z 到 t：为什么要替换 σ ₑ？

上一页得出的 $z_j=\frac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}} \sim \mathcal N(0,1),\qquad \lambda_j=[(\Phi^{\mathsf T}\Phi)^{-1}]_{jj}.$ 依赖于 真方差 σ ₑ² 已知 的理想前提。
现实里 σ ₑ² 不知道，只能用残差平方和得到的无偏估计 $\hat\sigma_\varepsilon^{2}=\frac{\|\,\mathbf Y-\Phi\hat{\mathbf w}\|^{2}}{N-M}.$
把 σ ₑ 用 $\hatσ_\varepsilon$ 替换即产生式 (1.30)： $t_j=\frac{\hat w_j}{\hat\sigma_\varepsilon\sqrt{\lambda_j}} =\frac{z_j}{\sqrt{\;\bigl((N-M)\hatσ_\varepsilon^{2}\bigr)/σ_\varepsilon^{2}\;}} \;\;\;\;\overset{H_0}{\sim}\; t_{\,N-M}.$

关键点：分母里出现 $\hat\sigma_\varepsilon$ （本身含有随机性），所以标准化后的量不再服从标准正态，而服从 Student t 分布，自由度 $N-M$ 来自估计 σ ₑ² 时“消耗”的 $M$ 个线性约束。

2. t-value 的含义

视角	含义
几何/数量	$t_j$ 是 $\hat w_j$ 与零假设 $w_j=0$ 之间的“标准差单位数”：离 0 越远，$
分布	在 $H_0: w_j=0$ 且经典误差假设成立时， $t_j$ 服从自由度 $N-M$ 的 t 分布。这给了检验阈值和 p-value 的计算依据。
假设检验	- 单尾检验 $H_1: w_j>0$ ：查表找临界值 $t_{α;N-M}$ 。<br>- 双尾检验 $H_1: w_j\neq0$ ，常见 5 % 水平用 $
置信区间	由 $t_{α/2;N-M}$ 给出系数的 $100(1-α)\%$ 区间：<br> $\displaystyle \hat w_j \pm t_{α/2;N-M}\,\hat\sigma_\varepsilon\sqrt{\lambda_j}$ 。

3. 为什么用 t 分布而不是再靠正态近似？

当样本量 $N$ 不大时， $\hat\sigma_\varepsilon$ 的不确定性不能忽略；
t 分布比正态分布尾部更“厚”，反映了额外的不确定度；
随着 $N-M\to\infty$ ，t 分布渐近地趋向 $\mathcal N(0,1)$ ，于是大样本时 t-检验与 z-检验几乎等价。

4. 实际操作流程

求解 $\hat{\mathbf w}$ 与残差 → 得到 $\hat\sigma_\varepsilon$ 。
抽取 $\lambda_j$ （ $(\Phi^{\mathsf T}\Phi)^{-1}$ 的第 $j$ 个对角元）。
计算 $t_j=\hat w_j / (\hatσ_\varepsilon\sqrt{\lambda_j})$ 。
查表 / 计算 p-value：
- 若要检验 $w_j>0$ ，取单尾；
- 若要检验 $w_j\neq0$ ，取双尾。
结论：比较 $t_j$ 与临界值或看 p。显著 ⇒ 该特征对响应变量有统计意义。

一句话总结：
t-value = ”估计值 ÷ 估计标准误“；在未知噪声方差下，它服从 t 分布，是我们判断回归系数是否显著（或构造置信区间）的核心量化指标。

Answer 7

不算“逻辑错误”，但这页 PPT 的符号写法确实有点偷懒——它把三种不同层面的“关系”都混在了一起：

位置	正确含义	建议符号	PPT 里的写法
① $(N-M)\hat\sigma_\varepsilon^{2}= \sum_{i=1}^{N}(y_i-\boldsymbol\phi(x_i)^{\mathsf T}\hat{\mathbf w})^{2}$	定义：残差平方和（SSE）	“＝” (恒等)	用了 “＝” ✅
② $\sum_{i=1}^{N}(y_i-\boldsymbol\phi(x_i)^{\mathsf T}\hat{\mathbf w})^{2}= \boldsymbol\varepsilon^{\mathsf T}(I-H)\boldsymbol\varepsilon$	代数恒等式：残差用投影矩阵 $I-H$ 表示	“＝” (恒等)	直接写成 $\sum(\varepsilon_i)^2$ → 不够严谨
③ $\dfrac{(N-M)\hat\sigma_\varepsilon^{2}}{\sigma_\varepsilon^{2}}\sim\chi^{2}_{N-M}$	分布结论：在误差正态假设下服从卡方	“ $\sim$ ” (同分布)	写成 “⇒”

1 为什么③应写成 “ $\sim$ ” 而不是 “⇒”？

“⇒” 在数学里通常表示逻辑蕴含 / 推出，而这里我们想表达的是
“这个随机变量的分布是 χ²(N-M)”。
用“ $\sim$ ”或“ $\stackrel{d}{=}$ ”专门表示“分布相同”会更精确： $\frac{(N-M)\hat\sigma_\varepsilon^{2}}{\sigma_\varepsilon^{2}} \;\stackrel{d}{=}\; \chi^{2}_{N-M}.$

2 残差不等于原始误差，② 的写法欠严谨

真误差向量 $\boldsymbol\varepsilon$ 与残差 $\mathbf e=\mathbf y-\Phi\hat{\mathbf w}$ 之间有 $\mathbf e = (I-H)\boldsymbol\varepsilon,\quad H=\Phi(\Phi^{\mathsf T}\Phi)^{-1}\Phi^{\mathsf T}.$
因此 $\text{SSE} = \mathbf e^{\mathsf T}\mathbf e = \boldsymbol\varepsilon^{\mathsf T}(I-H)\boldsymbol\varepsilon,$ 绝不能简单写成 $\sum_i(\varepsilon_i)^2$ 。不过因为 $(I-H)$ 是阶 $N$ 的对称幂等矩阵、秩 $N-M$ ，后续的卡方推导 仍然成立，只是符号要写严谨。

3 为什么会得到 χ²(N-M) 分布？（核心思路）

误差向量 $\boldsymbol\varepsilon\sim\mathcal N(\mathbf0,\sigma_\varepsilon^{2}I)$ 。
$I-H$ 是 对称幂等 且 $\operatorname{rank}(I-H)=N-M$ 。
高斯向量经此二次型得到 $\frac{1}{\sigma_\varepsilon^{2}}\boldsymbol\varepsilon^{\mathsf T}(I-H)\boldsymbol\varepsilon \;\;\sim\;\;\chi^{2}_{N-M}.$

乘回 $(N-M)$ 就得到所需的结果。

结论

不是逻辑错误，而是排版/符号略显草率：
- 把 “⇒” 改为 “ $\sim$ ” 或 “ $\stackrel{d}{=}$ ” 更严谨；
- 中间最好写成 $\boldsymbol\varepsilon^{\mathsf T}(I-H)\boldsymbol\varepsilon$ ，而不是 $\sum (\varepsilon_i)^2$ 。
推导本身（在高斯误差假设下残差平方和的卡方分布）完全正确。

Answer 8

1 为什么要把 $\hat w_j$ 处理成 $z_j=\dfrac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}}$

步骤	目的	解释
① 取协方差矩阵对角元<br> $\operatorname{Var}[\hat w_j]=\sigma_\varepsilon^{2}\,\lambda_j$	找到 $\hat w_j$ 自己的不确定度	$\lambda_j$ 来自 $(\Phi^{\mathsf T}\Phi)^{-1}$ 的第 $j$ 个对角元素，它正是 $\hat w_j$ 的方差系数。
② 提取标准差<br> $\sqrt{\sigma_\varepsilon^{2}\lambda_j}=\sigma_\varepsilon\sqrt{\lambda_j}$	把“散布范围”变成同量纲 $^*$ 的尺度	任何随机变量除以自己的标准差都会变成“单位标准差”。
③ 零假设下减去均值 0	“置中”	要检验 $H_0:w_j=0$ ，所以用 0 做参照。

$^*$ $\hat w_j$ 的单位是「响应量/特征量」；除以自己的标准差后，单位被抵消，得到纯粹的无量纲数。

2 这样处理后得到了什么？

标准化（归一化）随机变量
$z_j=\frac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}} \;\;\Longrightarrow\;\; \operatorname{E}[z_j]=0,\quad\operatorname{Var}[z_j]=1 .$
在经典误差假设下还可证明
$z_j\;\sim\;\mathcal N(0,1).$
含义直观
- $|z_j|$ 表示 $\hat w_j$ 距离 0 有多少个自身标准差。
- 例如 $|z_j|=2$ 意味着 $\hat w_j$ 已偏离零点 2 个 σ；在正态分布里这大约对应 5 % 的双尾概率。
- 任何系数都被放到同一“单位标准差刻度”上，便于横向比较谁更显著。
统计推断方便
- 已知 $\sigma_\varepsilon^{2}$ 时直接用 $z_j$ 做 z-检验；
- 未知 $\sigma_\varepsilon^{2}$ 时，把分母里的 $\sigma_\varepsilon$ 换成残差估计 $\hat\sigma_\varepsilon$ ，标准误仍在分母，只是分布从 $\mathcal N(0,1)$ 变成自由度 $N-M$ 的 Student t，即前一页得到的 $t_j=\frac{\hat w_j}{\hat\sigma_\varepsilon\sqrt{\lambda_j}} .$

3 归一化后带来的三点好处

统一量纲
各系数无论对应什么特征、规模多大，都转成同一“σ 单位”。
可直接查分布表
$\mathcal N(0,1)$ （或 t 分布）拥有现成临界值与 p-value 公式。
对比与排序
取绝对值 $|z_j|$ 或 $|t_j|$ 就能快速看出哪几个特征对响应变量最“显著”。

一句话：
把 $\hat w_j$ 除以自己的标准误，就是把它“去单位、去尺度”，变成均值 0、方差 1 的标准分布变量；这样既能让不同系数可比，也能直接套用正态/t-检验来判断显著性，这就是公式 (1.28)　对 $z_j$ 的处理意义所在。

Answer 9

这里的 $N-M$ 不是说“某个矩阵的秩是 $N-M$ ”，而是用来表示**“自由度（degrees of freedom）”**——它碰巧等于下面这两个秩之差：

样本数 $N$
— 设计矩阵 $\Phi$ 有 $N$ 行，对应 $N$ 条观测。
模型中需要估计的参数个数 $M$
— $\Phi$ 的列数，也是 $\hat{\mathbf w}$ 的维度；在“列满秩”假设下，
$\operatorname{rank}(\Phi)=M$ 。

从“秩”角度看公式里的 $N-M$

帽子矩阵（投影矩阵）
$H=\Phi(\Phi^{\mathsf T}\Phi)^{-1}\Phi^{\mathsf T}$
是对称、幂等（ $H^2=H$ ）且
$\operatorname{rank}(H)=M.$
残差投影矩阵
$I-H$
也是对称幂等，且
$\operatorname{rank}(I-H)=N-\operatorname{rank}(H)=N-M.$
这正是残差向量 $\mathbf e = (I-H)\mathbf y$ 所落到的子空间维度，也就是我们说的残差自由度。

因此，当 PPT 写下

\frac{(N-M)\hat\sigma_\varepsilon^{2}}{\sigma_\varepsilon^{2}} =\frac{\mathbf e^{\mathsf T}\mathbf e}{\sigma_\varepsilon^{2}} =\frac{\boldsymbol\varepsilon^{\mathsf T}(I-H)\boldsymbol\varepsilon}{\sigma_\varepsilon^{2}} \;\sim\;\chi^{2}_{\,N-M},

所用的 $N-M$ 就是 $I-H$ 的秩，也是 “在估计了 $M$ 个参数之后仍然剩下的随机独立信息量”。
它与 $\Phi^{\mathsf T}\Phi$ 的秩 $M$ 并不冲突；两者只是作用在不同的矩阵上：

矩阵	秩	含义
$\Phi^{\mathsf T}\Phi$	$M$	参数空间（列空间）的维度
$H$	$M$	投影到列空间
$I-H$	$N-M$	投影到列空间的正交补 → 残差空间

所以， $N-M$ 并不是说 $\Phi^{\mathsf T}\Phi$ 的秩变成了 $N-M$ ，而是指出 残差投影矩阵 $I-H$ 的秩等于 $N-M$ ；它恰好也是卡方分布的自由度、残差自由度，以及回归检验里常出现的那一串“样本数减参数数”。

Answer 10

图里给的是梯度流（gradient flow）框架下，模型在连续时间 t 的 预测值

f_t(x)\;=\;f\bigl(x;\,\theta_t\bigr)

随时间的演化方程。它对应于用平方误差损失

\mathcal L_t\;=\;\frac12\sum_{j=1}^{m}\!\bigl(y_j-f_t(x_j)\bigr)^{2}

做 “无学习率极限” 的梯度下降：

\dot{\theta}_t \;=\; -\,\nabla_{\theta}\mathcal L_t \;=\;\sum_{j=1}^{m}\bigl(y_j-f_t(x_j)\bigr)\, \nabla_{\theta}f_t(x_j).

1. 先用链式法则求 $\dot f_t(x)$

\dot f_t(x) \;=\; \frac{d}{dt}\,f\bigl(x;\theta_t\bigr) \;=\; \underbrace{\dot{\theta}_t^{\!\top}}_{\text{参数的变化}} \;\;\underbrace{\nabla_{\theta}f_t(x)}_{\text{对参数的梯度}}

将上面的 $\dot{\theta}_t$ 代进去，再把标量–向量乘积顺序调换，就得到

\boxed{\; \dot f_t(x)\;=\;\sum_{j=1}^{m} \bigl(y_j-f_t(x_j)\bigr)\, \nabla_{\theta}f_t(x_j)^{\!\top}\! \nabla_{\theta}f_t(x) \;} \qquad\text{(式 2)}

2. 各项含义

记号	含义	解释
$m$	训练样本数	求和下标 $j=1,\dots,m$
$y_j-f_t(x_j)$	第 j 个样本在时刻 t 的残差	还想让模型往哪个方向修正
$\nabla_{\theta}f_t(x_j)$	预测对参数的梯度（在训练点）	表示参数空间里“拉” $y_j$ 的方向
$\nabla_{\theta}f_t(x_j)^{\top}\nabla_{\theta}f_t(x)$	神经切线核 (Neural Tangent Kernel) $K_t(x_j,x)$	衡量训练点 $x_j$ 对测试点 $x$ 的影响强弱
$\dot f_t(x)$	预测随时间的瞬时变化率	>0 表示会增大预测，<0 表示会减小

因此，每个训练残差通过 NTK“传播”到任意数据点 $x$ ，共同决定了当前时刻预测值的改变量。

3. 与核回归的联系

把

K_t(x_j,x)\;=\;\nabla_{\theta}f_t(x_j)^{\!\top}\! \nabla_{\theta}f_t(x)

视作随时间变化的核函数，式 2 可简写为

\dot f_t(x)\;=\;\sum_{j=1}^{m} K_t(x_j,x)\,\bigl(y_j-f_t(x_j)\bigr),

这正是核回归残差传播方程——只是核随训练而变。在线性模型或NTK 极限（宽网络、 $\theta_t$ 变化很小）下， $K_t$ 近似静止，演化就简化为经典的核岭回归解析解。

小结

这张图展示了模型输出在连续时间梯度下降中的演化公式。
它把参数更新写成 residual × gradient 的和，再用链式法则转到预测空间。
结果暴露出 残差 × 梯度内积 的结构，揭示了 神经切线核 如何控制 “哪个样本在多大程度上影响哪个输入点的预测”。

Answer 11

下面这几行文字把 上一页的梯度流公式 (2) 重新包装成“核（kernel）”的语言，步骤非常直接：

1 把参数梯度当成特征映射

对于任何输入 $x$ ，模型输出对参数的梯度是

\nabla_{\theta}f_t(x)\;\in\;\mathbb R^P

（ $P$ 为参数量）。
如果把它视作一条“特征向量”

\Phi_t(x)=\nabla_{\theta}f_t(x),

那么 两条特征向量的内积 就天然形成了一个核函数：

\boxed{\; \hat\Theta_t(x,x')\;=\;\nabla_{\theta}f_t(x)^{\!\top} \nabla_{\theta}f_t(x') \;} \qquad\text{—— 公式 (3)}

这就是所谓的 经验神经切线核（empirical NTK）：

“经验”表示它基于 有限参数、有限宽度网络 当前时刻 $t$ 的真实梯度；
“NTK” 一词来自 Jacot et al. (2018)，将其推广到无限宽网络极限时变成固定核。

2 用核把梯度流公式写成紧凑矩阵式

上一页你已经看到（我们称为式 (2)）：

\dot f_t(x)\;=\;\sum_{j=1}^{m} \bigl(y_j-f_t(x_j)\bigr)\, \nabla_{\theta}f_t(x_j)^{\!\top} \nabla_{\theta}f_t(x), \tag{2}

其中 $m$ 是训练样本数。
只需把内积部分换成刚定义的 $\hat\Theta_t(x_j,x)$ ：

\dot f_t(x) \;=\; \sum_{j=1}^{m}\hat\Theta_t(x,x_j)\, \bigl(y_j-f_t(x_j)\bigr).

再把所有训练点按向量记作 $\vec{x}=(x_1,\dots,x_m)$ ，残差向量记作 $\vec{y}-f_t(\vec{x})$ ，就可以写成 一行矩阵相乘 的形式：

\boxed{\; \dot f_t(x)\;=\;\hat\Theta_t\bigl(x,\vec{x}\bigr)\; \bigl(\vec{y}-f_t(\vec{x})\bigr) \;} \qquad\text{—— 公式 (4)}

$\hat\Theta_t(x,\vec{x})$ 是一个 $1\times m$ 的行向量，
第 $j$ 个分量就是 $\hat\Theta_t(x,x_j)$ 。
$\vec{y}-f_t(\vec{x})$ 是 $m\times1$ 的列向量（训练残差）。
二者相乘给出标量 $\dot f_t(x)$ ，描述预测在时刻 $t$ 的瞬时变化率。

3 为什么这样做有意义？

把参数层面的演化映射到输入空间
NTK 把“哪个样本残差影响了输入 $x$ 的预测”量化为
$\hat\Theta_t(x,x_j)$ 。这让后续分析只需研究核矩阵而不用再跟踪高维参数。
与核回归形式一致
若在 “NTK 极限”（无限宽网络）下核随时间几乎不变，那么梯度流解会收敛到核岭回归的解析解；许多理论结果由此得来。
表达简洁
式 (4) 把原来涉及两次梯度的长表达缩成“核 × 残差”，既直观又方便推导后续闭式解或收敛速率。

小结

公式 (3) 定义了经验 NTK：两点梯度的内积。
公式 (4) 用 NTK 把梯度流演化式 (2) 写成“核作用于残差”的紧凑形式。
这样一来，神经网络的训练动力学就与经典核方法建立了直接对应关系，为分析和近似提供了强有力的工具。

Answer 12

公式 (5)

f(x;\theta)=f\bigl(x;\theta_{0}\bigr) +\nabla_\theta^{\!\top}f\bigl(x;\theta_{0}\bigr)\, \bigl(\theta-\theta_{0}\bigr) \tag{5}

是把 「经验 NTK 在训练过程中保持不变」 转写成 「模型对参数呈线性」 的具体表达。推导可分三步理解：

1. 经验 NTK 固定 ⇒ 梯度向量恒定

经验 NTK 的定义是

\hat\Theta_t(x,x') \;=\; \nabla_\theta^{\!\top} f_t(x)\, \nabla_\theta f_t(x').

若要求

\hat\Theta_t(x,x')=\hat\Theta_0(x,x')\quad \forall\,x,x',\,t,

就意味着每对输入的 梯度内积 在训练过程中不变。最直接能满足这一条件的情况是——梯度本身不随 t 变：

\nabla_\theta f_t(x)=\nabla_\theta f_0(x) \quad\Longrightarrow\quad \frac{\partial}{\partial\theta}\nabla_\theta f_t(x)=0,

也即 Hessian 为零；于是 $f$ 对参数是一个 线性（更准确地说：仿射）函数。

注：在无限宽网络的 NTK 极限里，上式可由更严格的 $d\hat\Theta_t/dt=0$ 导出；在有限宽但足够“懒训练”的近似里，也常用这条充分条件。

2. 梯度恒定 ⇒ 对参数做一阶泰勒展开

若对任意 $x$ 都有 $\nabla_\theta f(x;\theta)$ 与 $\theta$ 无关，就可以在初始点 $\theta_0$ 做泰勒展开且不需要高阶项：

f(x;\theta) \;=\; f\bigl(x;\theta_0\bigr) +\nabla_\theta^{\!\top} f\bigl(x;\theta_0\bigr) \Bigl(\theta-\theta_0\Bigr) +\underbrace{\tfrac12(\theta-\theta_0)^{\!\top} \nabla_\theta^{2}f(\xi)\, (\theta-\theta_0)}_{=0},

其中 $\xi$ 介于 $\theta$ 与 $\theta_0$ 之间。因为 Hessian 为零，二次及以上项全部消失，就得到公式 (5)。

3. 从参数运动的积分角度再看一次（等价说明）

沿训练路径 $\theta_t$ ，

f_t(x) =f_0(x)+\int_0^t \frac{d}{ds}f_s(x)\,ds =f_0(x)+\int_0^t \nabla_\theta^{\!\top}f_0(x)\, \dot\theta_s\,ds

（因为 $\nabla_\theta f_s(x)=\nabla_\theta f_0(x)$ 恒定）。

把 $\int_0^t\dot\theta_s\,ds=\theta_t-\theta_0$ 代回，也立即得到 (5)。

小结

经验 NTK 不随时间变化 ⇒ 梯度不变 ⇒ Hessian 为零。
Hessian 为零说明 $f(x;\theta)$ 在参数空间里只是一个一次（仿射）函数。
把一阶泰勒展开写成显式形式，就得到公式 (5)。它表明模型在整个训练过程中始终停留在初始参数的切线空间，也就是所谓的 “线性化网络”或 “lazy training / NTK regime”。

Answer 13

下面给出式 (6) 和式 (7) 的推导思路。记

训练集输入向量： $\vec{x}=(x_1,\dots ,x_m)$
当前时刻在训练点上的 预测向量： $f_t(\vec{x})=\bigl(f_t(x_1),\dots ,f_t(x_m)\bigr) \in\mathbb R^{m}$
真实标签向量： $\vec{y}=(y_1,\dots ,y_m)$
经验 NTK 在训练集上的核矩阵： $\hat\Theta_0(\vec{x},\vec{x})\in\mathbb R^{m\times m}$ ，第 $ij$ 元素为
$\hat\Theta_0(x_i,x_j)=\nabla_\theta f_0(x_i)^{\!\top}\nabla_\theta f_0(x_j)$ 。

1 先看式 (4) 在训练点上的写法

公式 (4)（上一页得到）是

\dot f_t(x)=\hat\Theta_t\!\bigl(x,\vec{x}\bigr)\, (\vec{y}-f_t(\vec{x})).

把 $x$ 也取为训练集中某一点 $x_i$ 并把所有 $i=1\!\sim\!m$ 收集成向量，就得到

\boxed{\;\dot f_t(\vec{x}) =\hat\Theta_t(\vec{x},\vec{x})\, (\vec{y}-f_t(\vec{x}))\;} \tag{6}

——这就是文中式 (6)；它只是把标量版本堆叠成矩阵–向量形式而已。

2 固定核 ⇒ 线性常微分方程 (ODE)

假设 核在训练过程中保持不变

\hat\Theta_t(\vec{x},\vec{x})=\hat\Theta_0(\vec{x},\vec{x}) \;\;(:=\Theta\_0)\quad\forall t,

则式 (6) 变为

\dot f_t(\vec{x})=\Theta_0\,(\vec{y}-f_t(\vec{x})) .

把 残差向量 记为 $e_t := f_t(\vec{x})-\vec{y}$ ，则

\dot e_t = \dot f_t(\vec{x}) = -\Theta_0\,e_t .

这是一个 线性自治 ODE： $\dot e_t = -\Theta_0\,e_t$ 。

3 解残差的 ODE

线性 ODE $\dot e_t=-\Theta_0 e_t$ 的解由矩阵指数给出

e_t = e^{-\Theta_0 t}\,e_0 ,

其中 $e_0=f_0(\vec{x})-\vec{y}$ 。

4 还原到预测向量 $f_t(\vec{x})$

将 $e_t$ 展开：

\boxed{\; f_t(\vec{x}) = \vec{y} + e_t = \vec{y} + e^{-\Theta_0 t}\,(f_0(\vec{x})-\vec{y}) . \}

为了与原文写法一致，把右端整理为

f_t(\vec{x}) = f_0(\vec{x}) - \bigl(I - e^{-\Theta_0 t}\bigr)\, \bigl(f_0(\vec{x})-\vec{y}\bigr),

这就是文中的式 (7)。

关键点回顾

常数核 ⇒ 参数梯度不变 ⇒ 经验 NTK 固定。
将梯度流写成训练集上的向量式得到线性 ODE。
残差满足 $\dot e_t=-\Theta_0 e_t$ ，解为 $e_t=e^{-\Theta_0 t}e_0$ 。
把残差解代回即可得到式 (7)。矩阵指数 $e^{-\Theta_0 t}$ 描述了残差随时间按“核矩阵的谱”指数衰减。

Answer 14

下面把 式 (6)

\dot{\mathbf f}_t =\hat\Theta_{0}\,(\mathbf y-\mathbf f_t) \qquad\bigl(\mathbf f_t:=f_t(\vec x)\bigr) \tag{6}

逐步积分，直到得到 式 (7)

\boxed{\; \mathbf f_t =\mathbf f_0-\!\bigl(I-e^{-\hat\Theta_{0}t}\bigr) \bigl(\mathbf f_0-\mathbf y\bigr) \;} \tag{7}

记号

$\mathbf y\in\mathbb R^{m}$ ：训练标签

$\mathbf f_t\in\mathbb R^{m}$ ：时刻 $t$ 在训练点处的预测

$\hat\Theta_{0}\in\mathbb R^{m\times m}$ ：固定的经验 NTK（常数核，正半定）

1. 先把微分方程改写成残差形式

设残差向量

\mathbf e_t \;:=\;\mathbf f_t-\mathbf y.

将其带入 (6)：

\dot{\mathbf e}_t =\dot{\mathbf f}_t =-\hat\Theta_{0}\,(\mathbf f_t-\mathbf y) =-\hat\Theta_{0}\,\mathbf e_t. \tag{A}

得到一阶线性自治 ODE： $\dot{\mathbf e}_t=-\hat\Theta_{0}\mathbf e_t$ 。

2. 用矩阵指数解一阶线性 ODE

对常系数线性系统

\dot{\mathbf e}_t=-A\mathbf e_t,\quad A=\hat\Theta_{0},

其通解是

\mathbf e_t =e^{-At}\,\mathbf e_0, \tag{B}

其中

e^{-At} \;:=\;\sum_{k=0}^{\infty}\frac{(-t)^k}{k!}A^k

是 矩阵指数； $\mathbf e_0=\mathbf f_0-\mathbf y$ 为初始残差。

检验：
(\displaystyle \frac{d}{dt}e^{-At} =(-A),e^{-At};\Longrightarrow; \dot{\mathbf e}_t=-A\mathbf e_t)，与 (A) 一致。

2.1 直观推导（可选）

若先对 $A$ 做对角化／谱分解
$\hat\Theta_{0}=Q\Lambda Q^{\!\top}$ （ $Q$ 正交、 $\Lambda$ 非负对角），
则 (A) 分解成 $m$ 条标量方程
$\dot z_i=-\lambda_i z_i$ ，
其解是 $z_i(t)=e^{-\lambda_i t}z_i(0)$ 。
把所有分量重新装回矩阵形式，就是 (B)。

3. 把残差解换回预测向量

根据定义

\mathbf f_t=\mathbf y+\mathbf e_t =\mathbf y+e^{-\hat\Theta_{0}t}\,\mathbf e_0.

将 $\mathbf e_0=\mathbf f_0-\mathbf y$ 代入整理：

\boxed{\; \mathbf f_t =\mathbf f_0-\!\bigl(I-e^{-\hat\Theta_{0}t}\bigr) (\mathbf f_0-\mathbf y) \;}

这就是文中式 (7)。

4. 思路总结

常数核假设 ⇒ $\hat\Theta_{0}$ 与时间无关。
将 ODE 写成残差形式，得到 $\dot{\mathbf e}_t=-\hat\Theta_{0}\mathbf e_t$ 。
线性常系数 ODE 的解由矩阵指数给出： $\mathbf e_t=e^{-\hat\Theta_{0}t}\mathbf e_0$ 。
残差加回标签即得 $\mathbf f_t$ 。

物理解读

核矩阵的特征值 $\{\lambda_i\}$ 决定各特征方向上残差的指数衰减速率 $e^{-\lambda_i t}$ 。特征值越大，误差衰减越快； $\lambda_i=0$ 的方向则永远保持初始残差。

Answer 15

下面依次把 (8)、(9)、(10)、(11) 四行公式的来龙去脉与目的写清楚。记

训练输入向量 $\vec x=(x_{1},\dots ,x_{m})$
训练标签 $\vec y=(y_{1},\dots ,y_{m})$
预测在训练点的向量 $\mathbf f_{t}=f_{t}(\vec x)\in\mathbb R^{m}$
固定的经验 NTK（Gram 矩阵） $\hat\Theta_{0}=\hat\Theta_{0}(\vec x,\vec x)\in\mathbb R^{m\times m}$

常数核假设： $\hat\Theta_{t}(\cdot,\cdot)=\hat\Theta_{0}(\cdot,\cdot)$ 。

1. 由式 (4) 得到式 (6)

式 (4)（先前得到）
$\dot f_{t}(x)=\hat\Theta_{t}(x,\vec x)\bigl(\vec y-\mathbf f_{t}\bigr).$

把 $x$ 也取为训练集里的那些点并堆成向量，就得

\dot{\mathbf f}_{t}=\hat\Theta_{0}\bigl(\vec y-\mathbf f_{t}\bigr),

这正是文中 式 (6)。
它是一个 线性常系数 ODE，可以直接积分。

2. 解训练残差的 ODE（回顾）

记残差 $\mathbf e_{t}=\mathbf f_{t}-\vec y$ 。
则

\dot{\mathbf e}_{t}=-\hat\Theta_{0}\mathbf e_{t}\quad\Longrightarrow\quad \boxed{\;\mathbf e_{t}=e^{-\hat\Theta_{0}t}\mathbf e_{0}\;}

其中 $\mathbf e_{0}= \mathbf f_{0}-\vec y$ 。
于是

\mathbf f_{t}= \vec y+e^{-\hat\Theta_{0}t}\,(\mathbf f_{0}-\vec y). \tag{$*$}

3. 把（ $*$ ）塞回式 (4) → 式 (8)

对任意测试点 $x$ ：

\dot f_{t}(x) =\hat\Theta_{0}(x,\vec x)\bigl(\vec y-\mathbf f_{t}\bigr) =\hat\Theta_{0}(x,\vec x)\, e^{-\hat\Theta_{0}t}\,(\vec y-\mathbf f_{0}),

恰好就是文中的 式 (8)

\boxed{\; \dot f_{t}(x)=\hat\Theta_{0}(x,\vec x)\, e^{-\hat\Theta_{0}t}\, \bigl(\vec y-f_{0}(\vec x)\bigr) \;}

为什么这么做？
先求出训练点上的完整闭式解，再把它带回到「任意 $x$ 的微分方程」里，等于把对 $x$ 的演化方程变成一个显式可积的右端，从而能得到真正的 $f_{t}(x)$ 。

4. 对式 (8) 在 $t$ 上积分 → 式 (9)

式 (8) 是一阶线性 ODE，且右端不再含 $f_{t}(x)$ ，因此直接积分：

\begin{aligned} f_{t}(x)-f_{0}(x) &=\int_{0}^{t}\hat\Theta_{0}(x,\vec x)\, e^{-\hat\Theta_{0}s}\,(\vec y-\mathbf f_{0})\,ds\\ &=\hat\Theta_{0}(x,\vec x)\, \hat\Theta_{0}^{-1}\! \bigl(I-e^{-\hat\Theta_{0}t}\bigr) \bigl(\vec y-\mathbf f_{0}\bigr). \end{aligned}

整理符号（把 $\vec y-\mathbf f_{0}$ 换成 $-(\mathbf f_{0}-\vec y)$ ）就得到 式 (9)

\boxed{\; f_{t}(x)=f_{0}(x)-\hat\Theta_{0}(x,\vec x)\hat\Theta_{0}^{-1} \bigl(I-e^{-\hat\Theta_{0}t}\bigr) \bigl(f_{0}(\vec x)-\vec y\bigr) \;}

含义：

初始预测 $f_{0}(x)$ 加上（负号代表朝标签方向移动）

一串“核 × 衰减矩阵” 权重，作用在初始残差上。

当 $t\to\infty$ ，指数项消失， $f_{t}(x)$ 收敛到核岭回归极限。

5. 不要求核完全恒定也能收敛 —— 式 (10) 与 (11)

接下来作者想说明：即使 kernel 不是严格常数，只要它“够稳定”且 Gram 矩阵正定，误差仍指数衰减。

训练误差能量函数
$E(t)=\tfrac12\bigl\|\vec y-\mathbf f_{t}\bigr\|_{2}^{2}.$
对时间求导（链式法则）
$\frac{dE}{dt} =-(\vec y-\mathbf f_{t})^{\!\top}\hat\Theta_{t}(\vec x,\vec x) (\vec y-\mathbf f_{t}).$
这就是文中 式 (10) 左边。
利用最小特征值下界
若 $\hat\Theta_{t}(\vec x,\vec x)\succeq \lambda_{0} I$ （随时间不小于 $\lambda_{0}>0$ ），则
$\frac{dE}{dt}\le -\lambda_{0}E(t), \quad\text{即}\quad \dot E(t)\le -\lambda_{0}E(t).$
这给出了 式 (10) 的不等式结果。
Gronwall 指数比较定理
由 $\dot E\le -\lambda_{0}E$ 得
$E(t)\le e^{-\lambda_{0}t}E(0),$
即 式 (11)
$\boxed{\; \|\vec y-\mathbf f_{t}\|_{2}^{2}\le e^{-\lambda_{0}t}\, \|\vec y-\mathbf f_{0}\|_{2}^{2}\;\longrightarrow\;0 \quad(t\to\infty) \;}$

为什么要这么做？

说明“正定 Gram + 近乎常数核”足以保证模型收敛到训练标签。

指数衰减率由最小特征值 $\lambda_{0}$ 控制，给出了收敛速度的明确下界。

小结

公式	主要操作	直观目的
(8)	把训练点闭式解带回式 (4)	得到测试点 $x$ 上显式可积的 ODE
(9)	对 (8) 积分	给出 $f_{t}(x)$ 的全局闭式解
(10)	对训练误差能量求导；用 Gram 正定性下界	建立误差能量的指数衰减不等式
(11)	积分/比较定理	证明误差 $\\|\vec y-\mathbf f_{t}\\|$ 指数趋零

这样就把常数 NTK 假设下的精确解，和无需严格常数核时的收敛性两件事串了起来。

Answer 16

下面把图片中的两行式子逐字拆开，说明矩阵指数项是怎样被积掉的，以及为什么可以得到第二行的闭式结果。

1. 识别各个量的形状

记号	维度	解释
$\hat\Theta_{0}(x,\vec x)$	$1\times m$ 行向量	经验 NTK 在 $(x,\,x_j)$ 处的那一整行
$e^{-\hat\Theta_{0}s}$	$m\times m$ 方阵	核矩阵 $\hat\Theta_{0}$ 的矩阵指数
$\bigl(\vec y-\mathbf f_{0}\bigr)$	$m\times1$ 列向量	训练集的初始残差

因此被积函数是

\underbrace{\hat\Theta_{0}(x,\vec x)}_{1\times m}\; \underbrace{e^{-\hat\Theta_{0}s}}_{m\times m}\; \underbrace{(\vec y-\mathbf f_{0})}_{m\times1} \quad\;\Longrightarrow\quad \text{标量 w.r.t. }s .

2. 提取常数，留下矩阵指数

f_t(x)-f_0(x) =\int_{0}^{t}\hat\Theta_{0}(x,\vec x)\,e^{-\hat\Theta_{0}s} \,(\vec y-\mathbf f_{0})\;ds

由于 $\hat\Theta_{0}(x,\vec x)$ 与 $(\vec y-\mathbf f_{0})$ 都不依赖于 $s$ ，可以一起提出积分号外，只剩下矩阵指数对 $s$ 的积分：

=\hat\Theta_{0}(x,\vec x) \left(\int_{0}^{t} e^{-\hat\Theta_{0}s}\,ds\right) (\vec y-\mathbf f_{0}).

3. 计算 $\displaystyle\int_{0}^{t}e^{-\hat\Theta_{0}s}\,ds$

对 可逆矩阵 $A$ 有经典恒等式

\int_{0}^{t} e^{-As}\,ds \;=\;A^{-1}\!\bigl(I-e^{-At}\bigr). \tag{★}

推导小结

微分验证：
对右端求导
$\frac{d}{dt}\bigl(A^{-1}(I-e^{-At})\bigr) =A^{-1}A\,e^{-At} =e^{-At},$
并且值在 $t=0$ 时为 0，故确为原积分的原函数。
级数或对角化：也可用 $e^{-As}=\sum_{k\ge0}(-s)^kA^{k}/k!$ 项积分逐项验证 (★)。

若 $A$ 不可逆，可改用伪逆并限制到 $\operatorname{range}(A)$ ；在 NTK 场景里 $\hat\Theta_{0}$ 通常正定，可直接取逆。

对号入座： $A=\hat\Theta_{0}$ ，于是

\int_{0}^{t} e^{-\hat\Theta_{0}s}\,ds =\hat\Theta_{0}^{-1}(I-e^{-\hat\Theta_{0}t}).

4. 把结果代回

\begin{aligned} f_t(x)-f_0(x) &=\hat\Theta_{0}(x,\vec x)\; \hat\Theta_{0}^{-1}(I-e^{-\hat\Theta_{0}t})\; (\vec y-\mathbf f_{0})\\[4pt] &=\boxed{\hat\Theta_{0}(x,\vec x)\, \hat\Theta_{0}^{-1}\! \bigl(I-e^{-\hat\Theta_{0}t}\bigr) \bigl(\vec y-\mathbf f_{0}\bigr)}. \end{aligned}

这正是图片中的第二行。

5. 为什么要这么做？

把时间积分完毕 → 得到 闭式解，以后想分析 $t\to\infty$ 的极限或收敛速度，只需研究矩阵指数 $e^{-\hat\Theta_{0}t}$ 的谱性质。
乘上 $\hat\Theta_{0}^{-1}(I-e^{-\hat\Theta_{0}t})$ $\hat{Θ}_{0}^{- 1} (I - e^{- \hat{Θ}_{0} t})$ 这一步，实质上在“衰减”初始残差：
- 特征值大的方向 → 指数项 $e^{-\lambda t}$ 很快变 0；
- 特征值 0 的方向 → 永远保留（网络学不会那部分标签）。

在正定 Gram 矩阵的典型设定下（所有 $\lambda_i>0$ ），指数项衰减到零，模型便完全拟合训练标签。

Answer 17

它是矩阵。具体来说：

记训练集输入为 $\vec x=(x_1,\dots,x_m)$ 。
经验 NTK 的定义是 $\hat\Theta_t(x,x')=\nabla_\theta f_t(x)^{\!\top}\nabla_\theta f_t(x'),$ 把 $x,x'$ 都取为训练集里的点，就得到 $\hat\Theta_t(\vec x,\vec x)\in\mathbb R^{m\times m},$ 其中第 $ij$ 元素是 $\hat\Theta_t(x_i,x_j)$ 。

因此 $\hat\Theta_t(\vec x,\vec x)$ 是 $m\times m$ 的 Gram 矩阵（对称、半正定）。
如果只写 $\hat\Theta_t(x,\vec x)$ ，那是长度 $m$ 的行向量；而 $\hat\Theta_t(\vec x,x)$ 是列向量。

Answer 18

式 (10) 的关键一步是把对时间的导数

\frac{d}{dt}\Bigl(\tfrac12\lVert\vec y-f_t(\vec x)\rVert_2^{2}\Bigr)

写成一个 二次型，然后用 Gram 矩阵最小特征值的下界来“夹”住它。完整推导如下：

1. 定义符号

设

\mathbf e_t \;=\; \vec y-f_t(\vec x)\quad(\text{训练残差}).

那么误差能量

E(t)=\tfrac12\|\mathbf e_t\|_2^{2}.

2. 对 $E(t)$ 求导

链式法则
$\frac{dE}{dt} =\mathbf e_t^{\!\top}\frac{d\mathbf e_t}{dt} =-\mathbf e_t^{\!\top}\dot f_t(\vec x) \quad(\text{因为 }\mathbf e_t=\vec y-f_t).$
代入梯度流方程 (6)
$\dot f_t(\vec x)=\hat\Theta_t(\vec x,\vec x)\,\mathbf e_t,$
得
$\boxed{\; \frac{dE}{dt} = -\,\mathbf e_t^{\!\top}\hat\Theta_t(\vec x,\vec x)\,\mathbf e_t \;}$
——这就是式 (10) 左边的等号。

3. 用最小特征值下界把二次型“夹”起来

假设 Gram 矩阵始终保持充分正定

\hat\Theta_t(\vec x,\vec x)\;\succeq\;\frac{\lambda_0}{2}\,I, \quad\lambda_0>0.

记 $\lambda_{\min}(t)\ge\lambda_0/2$ 。
因为 $\hat\Theta_t$ 对称，可谱分解
$\hat\Theta_t=Q\Lambda Q^{\!\top}$ ；于是

\mathbf e_t^{\!\top}\hat\Theta_t\mathbf e_t =\mathbf e_t^{\!\top}Q\Lambda Q^{\!\top}\mathbf e_t =(Q^{\!\top}\mathbf e_t)^{\!\top}\Lambda(Q^{\!\top}\mathbf e_t) \ge\lambda_{\min}(t)\,\|\mathbf e_t\|_2^{2} \ge\frac{\lambda_0}{2}\,\|\mathbf e_t\|_2^{2}.

4. 得到式 (10) 的不等式

把上界带回导数表达式：

\frac{dE}{dt} =-\,\mathbf e_t^{\!\top}\hat\Theta_t\mathbf e_t \;\;\le\;\; -\,\frac{\lambda_0}{2}\,\|\mathbf e_t\|_2^{2} =-\frac{\lambda_0}{2}\,2E(t) =-\lambda_0\,E(t).

若保持“ $\tfrac12\|\cdot\|^{2}$ ” 的写法，就是文中的

\boxed{\; \frac{d}{dt}\!\Bigl(\tfrac12\|\vec y-f_t(\vec x)\|_2^{2}\Bigr) \;\le\; -\frac{\lambda_0}{2}\,\|\vec y-f_t(\vec x)\|_2^{2} \;}

这正对应式 (10) 最后一部分。其物理意义是：误差能量的衰减速度至少与误差本身成比例，比例系数 ≥ λ₀/2——从而在后续一步利用 Grönwall 不等式就能得到指数收敛结论（式 (11)）。

Question

Réflexion

Explaining Gaussian error distribution

Réponse

1. 误差往往是许多独立微小扰动的总和 → 中心极限定理

2. 许多物理测量噪声本身就近似正态

3. 推导简单：高斯假设 ⇒ 最大似然 = 最小二乘

4. 假设虽理想化，但稳健且可验证

小结

Question

Réflexion

Explaining the symmetry of (Φ^T Φ)^-1

Réponse

1. ΦT ⁣Φ\Phi^{\mathsf T}\!\PhiΦTΦ 本身就是对称矩阵

2. 可逆对称矩阵的逆仍然对称

套用到 (ΦT ⁣Φ)−1(\Phi^{\mathsf T}\!\Phi)^{-1}(ΦTΦ)−1

Question

Réflexion

Explaining the equality

Réponse

小结

Question

Réflexion

Explaining matrix invertibility

Réponse

1. ΦTΦ\Phi^{\mathsf T}\PhiΦTΦ 是 Gram 矩阵

2. 正定 ⇔ 列满秩 ⇔ 可逆

3. 与样本-特征维度的关系

4. 实务提示

Question

Python

Réflexion

Explaining the formula

Explaining z-statistic and significance test

Réponse

推导思路

如何使用这个 zzz 统计量

小结

Question

Réflexion

Explaining t-value

Réponse

1. 从 z 到 t：为什么要替换 σ ₑ？

2. t-value 的含义

3. 为什么用 t 分布而不是再靠正态近似？

4. 实际操作流程

Question

Réflexion

Réponse

1 为什么③应写成 “∼\sim∼” 而不是 “⇒”？

2 残差不等于原始误差，② 的写法欠严谨

3 为什么会得到 χ²(N-M) 分布？（核心思路）

结论

Question

Réflexion

Explaining z_j processing

Réponse

1 为什么要把 w^j\hat w_jw^j​ 处理成 zj=w^jσελjz_j=\dfrac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}}zj​=σε​λj​​w^j​​

2 这样处理后得到了什么？

3 归一化后带来的三点好处

Question

Réflexion

Explaining N-M in linear regression

Réponse

从“秩”角度看公式里的 N−MN-MN−M

Question

Réflexion

Explaining the dynamics formula

Réponse

1. 先用链式法则求 f˙t(x)\dot f_t(x)f˙​t​(x)

2. 各项含义

3. 与核回归的联系

小结

Question

Réflexion

Réponse

1 把参数梯度当成特征映射

2 用核把梯度流公式写成紧凑矩阵式

3 为什么这样做有意义？

小结

1. $\Phi^{\mathsf T}\!\Phi$ 本身就是对称矩阵

套用到 $(\Phi^{\mathsf T}\!\Phi)^{-1}$

1. $\Phi^{\mathsf T}\Phi$ 是 Gram 矩阵

如何使用这个 $z$ 统计量

1 为什么③应写成 “ $\sim$ ” 而不是 “⇒”？

1 为什么要把 $\hat w_j$ 处理成 $z_j=\dfrac{\hat w_j}{\sigma_\varepsilon\sqrt{\lambda_j}}$

从“秩”角度看公式里的 $N-M$

1. 先用链式法则求 $\dot f_t(x)$

4 还原到预测向量 $f_t(\vec{x})$

3. 把（ $*$ ）塞回式 (4) → 式 (8)

4. 对式 (8) 在 $t$ 上积分 → 式 (9)

3. 计算 $\displaystyle\int_{0}^{t}e^{-\hat\Theta_{0}s}\,ds$

2. 对 $E(t)$ 求导