解释这里的误差为什么满足高斯分布
Criado em: 22 de junho de 2025
Criado em: 22 de junho de 2025
解释这里的误差为什么满足高斯分布
在大多数线性回归教材或论文里,都把随机误差 ε 假设为服从零均值、方差为 σₑ² 的高斯分布 N(0, σₑ²)。这种“高斯误差”并不是数学定律,而是一种经验合理、在理论和计算上都很方便的建模假设。主要理由可以概括为四点:
实际测量值与模型预测值之间的偏差,通常由许多独立、规模较小的因素叠加而成:
在电子、光学、热噪声等场景中,噪声来源是大量随机电子运动或光子到达事件,其统计规律本身已被实验验证为正态或可近似正态。因此,把误差建模成 N(0, σₑ²) 往往与仪器特性保持一致。
若 ε ∼ N(0, σₑ² I),整个样本 Y = Φw + ε 的对数似然为
对 w 求最大似然就变成最小化平方误差 → 最小二乘解
若需要估计不确定度或做贝叶斯推断,高斯先验/似然还能给出解析后验、预测分布等闭式结果,计算量小、性质好。
把 ε 设为高斯分布并非“自然真理”,而是基于
- 误差的多源叠加特性(中心极限)
- 测量噪声的经验分布
- 理论与计算的便利性
- 实践中的稳健性与可检验性
在多数工程和科研问题中,这一假设足够准确且能大幅简化推导与推断;若发现残差显著偏离正态,再考虑更复杂的误差模型即可。
解释为什么(ΦTΦ)−1 为对称矩阵
要说明 为什么一定是对称矩阵,只需用到两个线性代数基本事实:
对任何实矩阵 ,都有
因此 天然对称;如果 列满秩(列向量线性无关),它还是正定的,可逆。
设 是可逆且满足 。利用转置与逆的交换律
把 代入得
即 与其转置相等,所以 也是对称矩阵。
令 :
补充直观
把对称正定矩阵 做特征分解 ( 正交, 为正对角阵),则其中 仍是对角阵,左右再乘 依旧得到对称矩阵。这给出了逆保持对称性的另一种视角。
继续解释为什么E[ϵi,ϵj]= Cov[ϵi,ϵj]= 0,第一个等号是为什么
在经典线性回归的误差假设里,我们同时写下
关键是要先弄清两件事:
与 的关系
按照协方差的定义
在线性回归中我们假设 每个误差项都零均值:。
于是
这就解释了你问题里的“第一个等号”:在 零均值假设 下,误差项乘积的期望恰好等于它们的协方差。
为什么协方差(也就是乘积期望)为 0
经典假设进一步规定:
对于 :
两种说法等价地导致
为什么这个矩阵一定可逆?
之所以 存在(即 可逆),关键在于 设计矩阵 的列向量线性无关。下面按逻辑顺序说明这一点。
定理(Gram 矩阵)
列向量 线性无关
Gram 矩阵 正定
且可逆。
证明要点
充分性
若列线性无关,则对任何非零
故 正定 ⇒ 可逆。
必要性
若 Gram 矩阵奇异,则存在非零 使 。
上式仍等价于 ,从而 。
这说明列向量存在线性组合为零 ⇒ 不独立。
因此 列满秩 () 是 可逆的充要条件。
结论
只要设计矩阵 的列向量线性无关(即 列满秩),它的 Gram 矩阵 就严格正定,因而必然可逆;
于是 必然存在。
具体解释这页ppt的内容
pythonfrom PIL import Image import matplotlib.pyplot as plt img = Image.open('/mnt/data/image.png') plt.imshow(img) plt.axis('off') (-0.5, 1845.5, 291.5, -0.5)
下面这页 PPT 想说明的是:如果你已经知道最小二乘估计量 的协方差矩阵是
(教材公式 1.22),那么要检验某一维参数 是否显著大于 0,可以直接构造一个 统计量:
其中 是协方差矩阵第 行 列的元素(也等于矩阵对角线上的“自身方差系数”)。
线性模型与最小二乘解
误差假设
⇒ 线性变换高斯向量 → 仍服从正态分布
提取第 维方差
构造标准化统计量
在零假设 下
步骤 | 说明 |
---|---|
1. 计算 | 用常规最小二乘公式即可 |
2. 取出 | 先求 ,读第 个对角元素 |
3. 代入公式得 | |
4. 查标准正态分布 | 例如 5 % 单尾检验阈值 |
5. 做决策 | 若 ,拒绝 :断言 显著大于 0 |
如果 未知(现实里几乎总是如此),需用残差平方和
来估计,此时 统计量将遵循 分布(自由度 ),检验步骤完全类似,只是用 –表而不是 –表。
解释这里t-value的含义是什么
这一步把“已知噪声方差 σ ₑ² 时的 z 统计量”升级为“噪声方差未知时也能用的 t 统计量”。
关键点:分母里出现 (本身含有随机性),所以标准化后的量不再服从标准正态,而服从 Student t 分布,自由度 来自估计 σ ₑ² 时“消耗”的 个线性约束。
视角 | 含义 |
---|---|
几何/数量 | 是 与零假设 之间的“标准差单位数”:离 0 越远,$ |
分布 | 在 且经典误差假设成立时, 服从 自由度 的 t 分布。这给了检验阈值和 p-value 的计算依据。 |
假设检验 | - 单尾检验 :查表找临界值 。<br>- 双尾检验 ,常见 5 % 水平用 $ |
置信区间 | 由 给出系数的 区间:<br>。 |
一句话总结:
t-value = ”估计值 ÷ 估计标准误“;在未知噪声方差下,它服从 t 分布,是我们判断回归系数是否显著(或构造置信区间)的核心量化指标。
不算“逻辑错误”,但这页 PPT 的符号写法确实有点偷懒——它把三种不同层面的“关系”都混在了一起:
位置 | 正确含义 | 建议符号 | PPT 里的写法 |
---|---|---|---|
① | 定义:残差平方和(SSE) | “=” (恒等) | 用了 “=” ✅ |
② | 代数恒等式:残差用投影矩阵 表示 | “=” (恒等) | 直接写成 → 不够严谨 |
③ | 分布结论:在误差正态假设下服从卡方 | “” (同分布) | 写成 “⇒” |
乘回 就得到所需的结果。
步骤 | 目的 | 解释 |
---|---|---|
① 取协方差矩阵对角元<br> | 找到 自己的不确定度 | 来自 的第 个对角元素,它正是 的方差系数。 |
② 提取标准差<br> | 把“散布范围”变成同量纲的尺度 | 任何随机变量除以自己的标准差都会变成“单位标准差”。 |
③ 零假设下减去均值 0 | “置中” | 要检验 ,所以用 0 做参照。 |
的单位是「响应量/特征量」;除以自己的标准差后,单位被抵消,得到纯粹的无量纲数。
标准化(归一化)随机变量
在经典误差假设下还可证明
含义直观
统计推断方便
一句话:
把 除以自己的标准误,就是把它“去单位、去尺度”,变成均值 0、方差 1 的标准分布变量;这样既能让不同系数可比,也能直接套用正态/t-检验来判断显著性,这就是公式 (1.28) 对 的处理意义所在。
N-M代表的是矩阵的秩是M还是N-M
这里的 不是说“某个矩阵的秩是 ”,而是用来表示**“自由度(degrees of freedom)”**——它碰巧等于下面这两个秩之差:
样本数
— 设计矩阵 有 行,对应 条观测。
模型中需要估计的参数个数
— 的列数,也是 的维度;在“列满秩”假设下,
。
帽子矩阵(投影矩阵)
是对称、幂等()且
残差投影矩阵
也是对称幂等,且
这正是残差向量 所落到的子空间维度,也就是我们说的残差自由度。
因此,当 PPT 写下
所用的 就是 的秩,也是 “在估计了 个参数之后仍然剩下的随机独立信息量”。
它与 的秩 并不冲突;两者只是作用在不同的矩阵上:
矩阵 | 秩 | 含义 |
---|---|---|
参数空间(列空间)的维度 | ||
投影到列空间 | ||
投影到列空间的正交补 → 残差空间 |
所以, 并不是说 的秩变成了 ,而是指出 残差投影矩阵 的秩等于 ;它恰好也是卡方分布的自由度、残差自由度,以及回归检验里常出现的那一串“样本数减参数数”。
图里给的是梯度流(gradient flow)框架下,模型在连续时间 t 的 预测值
随时间的演化方程。它对应于用平方误差损失
做 “无学习率极限” 的梯度下降:
将上面的 代进去,再把标量–向量乘积顺序调换,就得到
记号 | 含义 | 解释 |
---|---|---|
训练样本数 | 求和下标 | |
第 j 个样本在时刻 t 的残差 | 还想让模型往哪个方向修正 | |
预测对参数的梯度(在训练点) | 表示 参数空间里“拉” 的方向 | |
神经切线核 (Neural Tangent Kernel) | 衡量训练点 对测试点 的影响强弱 | |
预测随时间的瞬时变化率 | >0 表示会增大预测,<0 表示会减小 |
因此,每个训练残差通过 NTK“传播”到任意数据点 ,共同决定了当前时刻预测值的改变量。
把
视作随时间变化的核函数,式 2 可简写为
这正是核回归残差传播方程——只是核随训练而变。在线性模型或NTK 极限(宽网络、 变化很小)下, 近似静止,演化就简化为经典的核岭回归解析解。
下面这几行文字把 上一页的梯度流公式 (2) 重新包装成“核(kernel)”的语言,步骤非常直接:
对于任何输入 ,模型输出对参数的梯度是
( 为参数量)。
如果把它视作一条“特征向量”
那么 两条特征向量的内积 就天然形成了一个核函数:
这就是所谓的 经验神经切线核(empirical NTK):
“经验”表示它基于 有限参数、有限宽度网络 当前时刻 的真实梯度;
“NTK” 一词来自 Jacot et al. (2018),将其推广到无限宽网络极限时变成固定核。
上一页你已经看到(我们称为式 (2)):
其中 是训练样本数。
只需把内积部分换成刚定义的 :
再把所有训练点按向量记作 , 残差向量记作 , 就可以写成 一行矩阵相乘 的形式:
把参数层面的演化映射到输入空间
NTK 把“哪个样本残差影响了输入 的预测”量化为
。这让后续分析只需研究核矩阵而不用再跟踪高维参数。
与核回归形式一致
若在 “NTK 极限”(无限宽网络)下核随时间几乎不变,那么梯度流解会收敛到核岭回归的解析解;许多理论结果由此得来。
表达简洁
式 (4) 把原来涉及两次梯度的长表达缩成“核 × 残差”,既直观又方便推导后续闭式解或收敛速率。
公式 (5)
是把 「经验 NTK 在训练过程中保持不变」 转写成 「模型对参数呈线性」 的具体表达。推导可分三步理解:
经验 NTK 的定义是
若要求
就意味着每对输入的 梯度内积 在训练过程中不变。最直接能满足这一条件的情况是——梯度本身不随 t 变:
也即 Hessian 为零;于是 对参数是一个 线性(更准确地说:仿射)函数。
注:在无限宽网络的 NTK 极限里,上式可由更严格的 导出;在有限宽但足够“懒训练”的近似里,也常用这条充分条件。
若对任意 都有 与 无关,就可以在初始点 做泰勒展开且不需要高阶项:
其中 介于 与 之间。因为 Hessian 为零,二次及以上项全部消失,就得到公式 (5)。
沿训练路径 ,
(因为 恒定)。
把 代回,也立即得到 (5)。
下面给出式 (6) 和式 (7) 的推导思路。记
公式 (4)(上一页得到)是
把 也取为训练集中某一点 并把所有 收集成向量,就得到
——这就是文中式 (6);它只是把标量版本堆叠成矩阵–向量形式而已。
假设 核在训练过程中保持不变
则式 (6) 变为
把 残差向量 记为 ,则
这是一个 线性自治 ODE: 。
线性 ODE 的解由矩阵指数给出
其中 。
将 展开:
\boxed{\; f_t(\vec{x}) = \vec{y} + e_t = \vec{y} + e^{-\Theta_0 t}\,(f_0(\vec{x})-\vec{y}) . \}为了与原文写法一致,把右端整理为
这就是文中的式 (7)。
我需要具体的积分过程和思路
下面把 式 (6)
逐步积分,直到得到 式 (7)
记号
- :训练标签
- :时刻 在训练点处的预测
- :固定的经验 NTK(常数核,正半定)
设残差向量
将其带入 (6):
得到一阶线性自治 ODE:。
对常系数线性系统
其通解是
其中
是 矩阵指数; 为初始残差。
检验:
(\displaystyle \frac{d}{dt}e^{-At} =(-A),e^{-At};\Longrightarrow; \dot{\mathbf e}_t=-A\mathbf e_t), 与 (A) 一致。
根据定义
将 代入整理:
这就是文中式 (7)。
核矩阵的特征值 决定各特征方向上残差的指数衰减速率 。特征值越大,误差衰减越快; 的方向则永远保持初始残差。
下面依次把 (8)、(9)、(10)、(11) 四行公式的来龙去脉与目的写清楚。记
常数核假设:。
式 (4)(先前得到)
把 也取为训练集里的那些点并堆成向量,就得
这正是文中 式 (6)。
它是一个 线性常系数 ODE,可以直接积分。
记残差 。
则
其中 。
于是
对任意测试点 :
恰好就是文中的 式 (8)
为什么这么做?
先求出训练点上的完整闭式解,再把它带回到「任意 的微分方程」里,等于把对 的演化方程变成一个显式可积的右端,从而能得到真正的 。
式 (8) 是一阶线性 ODE,且右端不再含 ,因此直接积分:
整理符号(把 换成 )就得到 式 (9)
含义:
- 初始预测 加上(负号代表朝标签方向移动)
- 一串“核 × 衰减矩阵” 权重,作用在初始残差上。
- 当 ,指数项消失, 收敛到核岭回归极限。
接下来作者想说明:即使 kernel 不是严格常数,只要它“够稳定”且 Gram 矩阵正定,误差仍指数衰减。
训练误差能量函数
对时间求导(链式法则)
这就是文中 式 (10) 左边。
利用最小特征值下界
若 (随时间不小于 ),则
这给出了 式 (10) 的不等式结果。
Gronwall 指数比较定理
由 得
即 式 (11)
为什么要这么做?
- 说明“正定 Gram + 近乎常数核”足以保证模型收敛到训练标签。
- 指数衰减率由最小特征值 控制,给出了收敛速度的明确下界。
公式 | 主要操作 | 直观目的 |
---|---|---|
(8) | 把训练点闭式解带回式 (4) | 得到测试点 上 显式可积 的 ODE |
(9) | 对 (8) 积分 | 给出 的全局闭式解 |
(10) | 对训练误差能量求导;用 Gram 正定性下界 | 建立误差能量的指数衰减不等式 |
(11) | 积分/比较定理 | 证明误差 指数趋零 |
这样就把常数 NTK 假设下的精确解,和无需严格常数核时的收敛性两件事串了起来。
下面把图片中的两行式子逐字拆开,说明矩阵指数项是怎样被积掉的,以及为什么可以得到第二行的闭式结果。
记号 | 维度 | 解释 |
---|---|---|
行向量 | 经验 NTK 在 处的那一整行 | |
方阵 | 核矩阵 的 矩阵指数 | |
列向量 | 训练集的 初始残差 |
因此被积函数是
由于 与 都不依赖于 ,可以一起提出积分号外,只剩下矩阵指数对 的积分:
对 可逆矩阵 有经典恒等式
微分验证:
对右端求导
并且值在 时为 0,故确为原积分的原函数。
级数或对角化:也可用 项积分逐项验证 (★)。
若 不可逆,可改用 伪逆 并限制到 ;在 NTK 场景里 通常正定,可直接取逆。
对号入座:,于是
这正是图片中的第二行。
在正定 Gram 矩阵的典型设定下(所有 ),指数项衰减到零,模型便完全拟合训练标签。
它是 矩阵。具体来说:
因此 是 的 Gram 矩阵(对称、半正定)。
如果只写 ,那是长度 的行向量;而 是列向量。
式 (10) 的关键一步是把对时间的导数
写成一个 二次型,然后用 Gram 矩阵最小特征值的下界来“夹”住它。完整推导如下:
设
那么误差能量
链式法则
代入梯度流方程 (6)
得
——这就是式 (10) 左边的等号。
假设 Gram 矩阵始终保持充分正定
记 。
因为 对称,可谱分解
;于是
把上界带回导数表达式:
若保持“” 的写法,就是文中的
这正对应式 (10) 最后一部分。其物理意义是:误差能量的衰减速度至少与误差本身成比例,比例系数 ≥ λ₀/2——从而在后续一步利用 Grönwall 不等式就能得到指数收敛结论(式 (11))。