当然可以。下面我把你上传的《统计推断的理论与方法(2025秋)Homework 4》全部习题逐题做完,并用本科生能直接消化 的方式讲清楚每一步的动机、关键想法与本质。题号与表述对应你给的作业PDF。(HW_4.pdf)
1. 反向 I-投影(Reverse I-projection)
记相对熵(KL)为 D ( p ∥ q ) = ∑ y p ( y ) log p ( y ) q ( y ) D(p\|q)=\sum_y p(y)\log\frac{p(y)}{q(y)} D ( p ∥ q ) = ∑ y p ( y ) log q ( y ) p ( y ) 。下文所有对数底数保持一致即可(不影响结论)。
(a) Pythagoras 定理(反向形式)
要证 :若 q ⋆ = arg min q ∈ Q D ( p ∥ q ) q^\star=\arg\min_{q\in\mathcal Q}D(p\|q) q ⋆ = arg min q ∈ Q D ( p ∥ q ) ,且 Q \mathcal Q Q 非空、闭、对数凸 (log-convex),则
D ( p ∥ q ) ≥ D ( p ∥ q ⋆ ) + D ( q ⋆ ∥ q ) , ∀ q ∈ Q . D(p\|q)\ \ge\ D(p\|q^\star)+D(q^\star\|q),\quad \forall\,q\in\mathcal Q. D ( p ∥ q ) ≥ D ( p ∥ q ⋆ ) + D ( q ⋆ ∥ q ) , ∀ q ∈ Q .
动机与几何直觉
反向 I-投影是在**第二个自变量(模型)**上投影;对数凸意味着“在对数域做线性插值,再归一化”仍留在 Q \mathcal Q Q 里。
把 Q \mathcal Q Q 看成“可选模型的族”,最优 q ⋆ q^\star q ⋆ 在这族中使 D ( p ∥ ⋅ ) D(p\|\cdot) D ( p ∥ ⋅ ) 最小。Pythagoras 式不等式表明:从任意 q q q 到 p p p 的“误差”至少等于“最佳误差”再加上“从 q q q 到 q ⋆ q^\star q ⋆ 的额外误差”。
证明要点(沿对数几何路径求单边导数)
取任意 q ∈ Q q\in\mathcal Q q ∈ Q ,对数凸给出几何平均路径
q λ ( y ) = q ⋆ ( y ) λ q ( y ) 1 − λ ∑ z q ⋆ ( z ) λ q ( z ) 1 − λ , λ ∈ [ 0 , 1 ] , q_\lambda(y)=\frac{q^\star(y)^\lambda\,q(y)^{1-\lambda}}{\sum_{z}q^\star(z)^\lambda\,q(z)^{1-\lambda}},\quad \lambda\in[0,1], q λ ( y ) = ∑ z q ⋆ ( z ) λ q ( z ) 1 − λ q ⋆ ( y ) λ q ( y ) 1 − λ , λ ∈ [ 0 , 1 ] ,
且 q λ ∈ Q q_\lambda\in\mathcal Q q λ ∈ Q 。令 ϕ ( λ ) = D ( p ∥ q λ ) \phi(\lambda)=D(p\|q_\lambda) ϕ ( λ ) = D ( p ∥ q λ ) 。由于 q ⋆ q^\star q ⋆ 是 Q \mathcal Q Q 上的极小点,ϕ ( 1 ) ≤ ϕ ( λ ) \phi(1)\le \phi(\lambda) ϕ ( 1 ) ≤ ϕ ( λ ) ,于是左导数 ϕ ′ ( 1 − ) ≤ 0 \phi'(1^-)\le 0 ϕ ′ ( 1 − ) ≤ 0 。
计算 ϕ ′ ( 1 − ) \phi'(1^-) ϕ ′ ( 1 − ) 可得(标准推导)
ϕ ′ ( 1 − ) = ∑ y ( p ( y ) − q ⋆ ( y ) ) log q ( y ) q ⋆ ( y ) ≤ 0. \phi'(1^-)=\sum_y\bigl(p(y)-q^\star(y)\bigr)\log\frac{q(y)}{q^\star(y)}\ \le\ 0. ϕ ′ ( 1 − ) = y ∑ ( p ( y ) − q ⋆ ( y ) ) log q ⋆ ( y ) q ( y ) ≤ 0.
把它移项即
∑ y ( p − q ⋆ ) log q ⋆ q ≥ 0. \sum_y\bigl(p-q^\star\bigr)\log\frac{q^\star}{q}\ \ge\ 0. y ∑ ( p − q ⋆ ) log q q ⋆ ≥ 0.
而
D ( p ∥ q ) − D ( p ∥ q ⋆ ) − D ( q ⋆ ∥ q ) = ∑ y ( p − q ⋆ ) log q ⋆ q , D(p\|q)-D(p\|q^\star)-D(q^\star\|q)=\sum_y\bigl(p-q^\star\bigr)\log\frac{q^\star}{q}, D ( p ∥ q ) − D ( p ∥ q ⋆ ) − D ( q ⋆ ∥ q ) = y ∑ ( p − q ⋆ ) log q q ⋆ ,
从而得到所需不等式。□
本质 :在对数域的“直线”是反向投影的“测地线”。极小性的“一侧导数非负/非正”给出 KL 的“三角恒等式”。
(b)(练习)q ⋆ q^\star q ⋆ 是 p p p 对指数族 E t ( q ⋆ ) \mathcal E_t(q^\star) E t ( q ⋆ ) 的反向 I-投影 当且仅当 p ∈ L t ( q ⋆ ) p\in\mathcal L_t(q^\star) p ∈ L t ( q ⋆ ) 。
关键事实
指数族:q θ ( y ) = q 0 ( y ) exp { θ ⊤ t ( y ) } Z ( θ ) q_\theta(y)=\dfrac{q_0(y)\exp\{\theta^\top t(y)\}}{Z(\theta)} q θ ( y ) = Z ( θ ) q 0 ( y ) exp { θ ⊤ t ( y )} 。
在线性族 L t ( c ) \mathcal L_t(c) L t ( c ) 中:分布满足 E p [ t ( Y ) ] = c \mathbb E_p[t(Y)]=c E p [ t ( Y )] = c 。
结论与推理
令 q ⋆ ∈ E t ( q 0 ) q^\star\in\mathcal E_t(q_0) q ⋆ ∈ E t ( q 0 ) 。求 min θ D ( p ∥ q θ ) \min_\theta D(p\|q_\theta) min θ D ( p ∥ q θ ) 的一阶条件:
∂ ∂ θ D ( p ∥ q θ ) = − E p [ t ( Y ) ] + E q θ [ t ( Y ) ] = 0. \frac{\partial}{\partial\theta}D(p\|q_\theta)= -\mathbb E_p[t(Y)]+\mathbb E_{q_\theta}[t(Y)]=0. ∂ θ ∂ D ( p ∥ q θ ) = − E p [ t ( Y )] + E q θ [ t ( Y )] = 0.
最优点满足 E p [ t ] = E q ⋆ [ t ] \mathbb E_p[t]=\mathbb E_{q^\star}[t] E p [ t ] = E q ⋆ [ t ] ,即 p ∈ L t ( E q ⋆ [ t ] ) p\in\mathcal L_t\bigl(\mathbb E_{q^\star}[t]\bigr) p ∈ L t ( E q ⋆ [ t ] ) 。
反之,若 p p p 与某个 q ⋆ q^\star q ⋆ 匹配充分统计量的期望,则上式为零且 D ( p ∥ q θ ) D(p\|q_\theta) D ( p ∥ q θ ) 在 θ \theta θ 上凸,故 q ⋆ q^\star q ⋆ 为唯一极小点,即反向 I-投影。□
本质 :反向投影到指数族 ⇔ “矩匹配”。这正是信息几何里 E E E -坐标与 m m m -坐标(指数族与线性约束)的对偶。
(c) 另一种 Pythagoras 型判别条件(凸集版本)
要证 :对任意分布 p ′ p' p ′ 与任意 q ′ ∈ Q q'\in\mathcal Q q ′ ∈ Q (Q \mathcal Q Q 非空、闭、凸 ),
q ⋆ = arg min q ∈ Q D ( p ∥ q ) ⟺ D ( p ′ ∥ q ′ ) + D ( p ′ ∥ p ) ≥ D ( p ′ ∥ q ⋆ ) . q^\star=\arg\min_{q\in\mathcal Q}D(p\|q)
\quad\Longleftrightarrow\quad
D(p'\|q')+D(p'\|p)\ \ge\ D(p'\|q^\star). q ⋆ = arg q ∈ Q min D ( p ∥ q ) ⟺ D ( p ′ ∥ q ′ ) + D ( p ′ ∥ p ) ≥ D ( p ′ ∥ q ⋆ ) .
“⇐” 方向:令 p ′ = p p'=p p ′ = p ,q ′ = q ∈ Q q'=q\in\mathcal Q q ′ = q ∈ Q 。则
D ( p ∥ q ) + D ( p ∥ p ) ≥ D ( p ∥ q ⋆ ) ⇒ D ( p ∥ q ) ≥ D ( p ∥ q ⋆ ) , D(p\|q)+D(p\|p)\ge D(p\|q^\star)\quad\Rightarrow\quad D(p\|q)\ge D(p\|q^\star), D ( p ∥ q ) + D ( p ∥ p ) ≥ D ( p ∥ q ⋆ ) ⇒ D ( p ∥ q ) ≥ D ( p ∥ q ⋆ ) ,
故 q ⋆ q^\star q ⋆ 为极小点。
“⇒” 方向的核心不等式
定义 Z = ∑ y p ( y ) q ′ ( y ) q ⋆ ( y ) Z=\sum_y p(y)\,\frac{q'(y)}{q^\star(y)} Z = ∑ y p ( y ) q ⋆ ( y ) q ′ ( y ) 。因为 Q \mathcal Q Q 凸、q t = ( 1 − t ) q ⋆ + t q ′ ∈ Q q_t=(1-t)q^\star+t q'\in\mathcal Q q t = ( 1 − t ) q ⋆ + t q ′ ∈ Q ,极小性给出沿直线的右导数
d d t D ( p ∥ q t ) ∣ t = 0 + = − ∑ y p ( y ) q ′ ( y ) − q ⋆ ( y ) q ⋆ ( y ) = 1 − Z ≥ 0 , \left.\frac{d}{dt}D(p\|q_t)\right|_{t=0^+}=-\sum_y p(y)\frac{q'(y)-q^\star(y)}{q^\star(y)}=1-Z\ \ \ge 0, d t d D ( p ∥ q t ) t = 0 + = − y ∑ p ( y ) q ⋆ ( y ) q ′ ( y ) − q ⋆ ( y ) = 1 − Z ≥ 0 ,
故 Z ≤ 1 Z\le 1 Z ≤ 1 。
再看待证不等式的等价形式
D ( p ′ ∥ q ⋆ ) − D ( p ′ ∥ q ′ ) = ∑ y p ′ ( y ) log q ′ ( y ) q ⋆ ( y ) ≤ D ( p ′ ∥ p ) . D(p'\|q^\star)-D(p'\|q')=\sum_y p'(y)\log\frac{q'(y)}{q^\star(y)}\ \le\ D(p'\|p). D ( p ′ ∥ q ⋆ ) − D ( p ′ ∥ q ′ ) = y ∑ p ′ ( y ) log q ⋆ ( y ) q ′ ( y ) ≤ D ( p ′ ∥ p ) .
把左边写成
∑ y p ′ ( y ) log p ( y ) q ′ ( y ) q ⋆ ( y ) p ′ ( y ) = − D ( p ′ ∥ p q ′ q ⋆ Z ) + log Z ≤ log Z ≤ 0 , \sum_y p'(y)\log\frac{p(y)q'(y)}{q^\star(y)p'(y)}
= -D\!\left(p'\middle\|\frac{p\,q'}{q^\star Z}\right)+\log Z\ \le\ \log Z\ \le\ 0, y ∑ p ′ ( y ) log q ⋆ ( y ) p ′ ( y ) p ( y ) q ′ ( y ) = − D ( p ′ q ⋆ Z p q ′ ) + log Z ≤ log Z ≤ 0 ,
于是结论成立。□
本质 :在凸集上做“线性插值”时,极小点的变分不等式 (右导数 ≥ 0 \ge0 ≥ 0 )与一次 KL 分解(引入临时分布 ∝ p q ′ / q ⋆ \propto p\,q'/q^\star ∝ p q ′ / q ⋆ )合起来,就是这个“三点式”判别条件。
2. 建模题(3 选项的先验,2 值观测)
给定 x ∈ { 0 , 1 , 2 } x\in\{0,1,2\} x ∈ { 0 , 1 , 2 } 与 y ∈ { 0 , 1 } y\in\{0,1\} y ∈ { 0 , 1 } :
p y ( y ; 0 ) = ϵ y ( 1 − ϵ ) 1 − y , p y ( y ; 1 ) = ( 1 − ϵ ) y ϵ 1 − y , p y ( y ; 2 ) = 1 2 , p_y(y;0)=\epsilon^y(1-\epsilon)^{1-y},\quad
p_y(y;1)=(1-\epsilon)^y\epsilon^{1-y},\quad
p_y(y;2)=\tfrac12, p y ( y ; 0 ) = ϵ y ( 1 − ϵ ) 1 − y , p y ( y ; 1 ) = ( 1 − ϵ ) y ϵ 1 − y , p y ( y ; 2 ) = 2 1 ,
其中 0 < ϵ < 1 2 0<\epsilon<\tfrac12 0 < ϵ < 2 1 。记先验 p x p_x p x 。模型容量 C = max p x I ( X ; Y ) = I p x ⋆ ( X ; Y ) C=\max_{p_x}I(X;Y)=I_{p_x^\star}(X;Y) C = max p x I ( X ; Y ) = I p x ⋆ ( X ; Y ) ;达到容量的 p x ⋆ p_x^\star p x ⋆ 称“最不确定先验”(又称“等距先验/最不利先验”)。(HW_4.pdf)
(a)(i) 把 I p x ( X ; Y ) I_{p_x}(X;Y) I p x ( X ; Y ) 化成指定形式
思路 :互信息 I = H ( Y ) − H ( Y ∣ X ) I=H(Y)-H(Y|X) I = H ( Y ) − H ( Y ∣ X ) 。对二元 Y Y Y ,H ( Y ) = H B ( p Y ( 1 ) ) H(Y)=H_B(p_Y(1)) H ( Y ) = H B ( p Y ( 1 )) 。
设 p x ( 0 ) = p 0 , p x ( 1 ) = p 1 , p x ( 2 ) = p 2 p_x(0)=p_0,\ p_x(1)=p_1,\ p_x(2)=p_2 p x ( 0 ) = p 0 , p x ( 1 ) = p 1 , p x ( 2 ) = p 2 ,令 s = p 1 − p 0 s=p_1-p_0 s = p 1 − p 0 。
边际 p Y ( 1 ) = m = p 0 ϵ + p 1 ( 1 − ϵ ) + p 2 1 2 p_Y(1)=m=p_0\epsilon+p_1(1-\epsilon)+p_2\tfrac12 p Y ( 1 ) = m = p 0 ϵ + p 1 ( 1 − ϵ ) + p 2 2 1 。
用 p 0 + p 1 = 1 − p 2 p_0+p_1=1-p_2 p 0 + p 1 = 1 − p 2 消去得到
m = 1 2 + 1 − 2 ϵ 2 s . m=\tfrac12+\tfrac{1-2\epsilon}{2}\,s. m = 2 1 + 2 1 − 2 ϵ s .
条件熵 H ( Y ∣ X ) = ( 1 − p 2 ) H B ( ϵ ) + p 2 H B ( 1 2 ) H(Y|X)= (1-p_2)H_B(\epsilon)+p_2 H_B(\tfrac12) H ( Y ∣ X ) = ( 1 − p 2 ) H B ( ϵ ) + p 2 H B ( 2 1 ) 。
于是
I p x ( X ; Y ) = H B ( 1 2 + 1 − 2 ϵ 2 ⏟ f ( ϵ ) ( p x ( 1 ) − p x ( 0 ) ) ) − ( H B ( 1 2 ) − H B ( ϵ ) ) ⏟ g ( ϵ ) p x ( 2 ) − H B ( ϵ ) . I_{p_x}(X;Y)=H_B\!\Big(\tfrac12+\underbrace{\tfrac{1-2\epsilon}{2}}_{f(\epsilon)}(p_x(1)-p_x(0))\Big)
-\underbrace{\big(H_B(\tfrac12)-H_B(\epsilon)\big)}_{g(\epsilon)}\,p_x(2)-H_B(\epsilon). I p x ( X ; Y ) = H B ( 2 1 + f ( ϵ ) 2 1 − 2 ϵ ( p x ( 1 ) − p x ( 0 )) ) − g ( ϵ ) ( H B ( 2 1 ) − H B ( ϵ ) ) p x ( 2 ) − H B ( ϵ ) .
答案 :f ( ϵ ) = 1 − 2 ϵ 2 f(\epsilon)=\dfrac{1-2\epsilon}{2} f ( ϵ ) = 2 1 − 2 ϵ ,g ( ϵ ) = H B ( 1 2 ) − H B ( ϵ ) g(\epsilon)=H_B(\tfrac12)-H_B(\epsilon) g ( ϵ ) = H B ( 2 1 ) − H B ( ϵ ) 。
(a)(ii) 求容量与 p x ⋆ p_x^\star p x ⋆ ,并写成 α H B ( 1 2 ) + β H B ( ϵ ) \alpha H_B(\tfrac12)+\beta H_B(\epsilon) α H B ( 2 1 ) + β H B ( ϵ )
动机 :最大化 I I I 等价于
让输出熵 H ( Y ) H(Y) H ( Y ) 尽量大 (二值最大为 H B ( 1 / 2 ) H_B(1/2) H B ( 1/2 ) ),
同时让平均条件熵 H ( Y ∣ X ) H(Y|X) H ( Y ∣ X ) 尽量小 。
从 (i) 可见:
H B ( ⋅ ) H_B(\cdot) H B ( ⋅ ) 对称、在 1 / 2 1/2 1/2 取最大 ⇒ 令 s = p 1 − p 0 = 0 s=p_1-p_0=0 s = p 1 − p 0 = 0 (即 p 1 = p 0 p_1=p_0 p 1 = p 0 )使 H ( Y ) = H B ( 1 / 2 ) H(Y)=H_B(1/2) H ( Y ) = H B ( 1/2 ) ;
系数 g ( ϵ ) > 0 g(\epsilon)>0 g ( ϵ ) > 0 ,因此取 p 2 = 0 p_2=0 p 2 = 0 以免扣分。
于是
p x ⋆ ( 0 ) = p x ⋆ ( 1 ) = 1 2 , p x ⋆ ( 2 ) = 0 , p_x^\star(0)=p_x^\star(1)=\tfrac12,\quad p_x^\star(2)=0, p x ⋆ ( 0 ) = p x ⋆ ( 1 ) = 2 1 , p x ⋆ ( 2 ) = 0 ,
容量
C = H B ( 1 2 ) − H B ( ϵ ) . C=H_B(\tfrac12)-H_B(\epsilon). C = H B ( 2 1 ) − H B ( ϵ ) .
故 α = 1 , β = − 1 \alpha=1,\ \beta=-1 α = 1 , β = − 1 。
(a)(iii) 用 p x ⋆ p_x^\star p x ⋆ 形成的混合边际 p y ⋆ p_y^\star p y ⋆
p y ⋆ ( y ) = 1 2 p y ( y ; 0 ) + 1 2 p y ( y ; 1 ) , p_y^\star(y)=\tfrac12\,p_y(y;0)+\tfrac12\,p_y(y;1), p y ⋆ ( y ) = 2 1 p y ( y ; 0 ) + 2 1 p y ( y ; 1 ) ,
从而 p y ⋆ ( 1 ) = 1 2 ( ϵ + 1 − ϵ ) = 1 2 p_y^\star(1)=\tfrac12(\epsilon+1-\epsilon)=\tfrac12 p y ⋆ ( 1 ) = 2 1 ( ϵ + 1 − ϵ ) = 2 1 。
答案 :p y ⋆ = Bernoulli ( 1 / 2 ) p_y^\star=\text{Bernoulli}(1/2) p y ⋆ = Bernoulli ( 1/2 ) 。
本质 :容量达到时,输出被“居中”为均匀分布;且对所有使用到的输入 x x x ,有等距性质 D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) = C D\big(p_y(\cdot;x)\big\|p_y^\star\big)=C D ( p y ( ⋅ ; x ) p y ⋆ ) = C 。
(b) 取均匀先验 p x ( x ) = 1 / 3 p_x(x)=1/3 p x ( x ) = 1/3
(i) 混合边际 p Y p_Y p Y
p Y ( 1 ) = 1 3 ( ϵ + ( 1 − ϵ ) + 1 2 ) = 1 2 . p_Y(1)=\tfrac13\big(\epsilon+(1-\epsilon)+\tfrac12\big)=\tfrac12. p Y ( 1 ) = 3 1 ( ϵ + ( 1 − ϵ ) + 2 1 ) = 2 1 .
故 p Y = Bernoulli ( 1 / 2 ) p_Y=\text{Bernoulli}(1/2) p Y = Bernoulli ( 1/2 ) 。
(ii) 差额 C − I p x C-I_{p_x} C − I p x 的系数 γ , δ \gamma,\delta γ , δ
此时
H ( Y ∣ X ) = 2 3 H B ( ϵ ) + 1 3 H B ( 1 2 ) , H(Y|X)=\tfrac23 H_B(\epsilon)+\tfrac13 H_B(\tfrac12), H ( Y ∣ X ) = 3 2 H B ( ϵ ) + 3 1 H B ( 2 1 ) ,
I p x ( X ; Y ) = H B ( 1 2 ) − H ( Y ∣ X ) = 2 3 ( H B ( 1 2 ) − H B ( ϵ ) ) . I_{p_x}(X;Y)=H_B(\tfrac12)-H(Y|X)=\tfrac23\big(H_B(\tfrac12)-H_B(\epsilon)\big). I p x ( X ; Y ) = H B ( 2 1 ) − H ( Y ∣ X ) = 3 2 ( H B ( 2 1 ) − H B ( ϵ ) ) .
所以
C − I p x = ( H B ( 1 2 ) − H B ( ϵ ) ) − 2 3 ( H B ( 1 2 ) − H B ( ϵ ) ) = 1 3 H B ( 1 2 ) − 1 3 H B ( ϵ ) . C-I_{p_x}= \big(H_B(\tfrac12)-H_B(\epsilon)\big)
-\tfrac23\big(H_B(\tfrac12)-H_B(\epsilon)\big)
=\tfrac13 H_B(\tfrac12)-\tfrac13 H_B(\epsilon). C − I p x = ( H B ( 2 1 ) − H B ( ϵ ) ) − 3 2 ( H B ( 2 1 ) − H B ( ϵ ) ) = 3 1 H B ( 2 1 ) − 3 1 H B ( ϵ ) .
答案 :γ = 1 3 , δ = − 1 3 \gamma=\tfrac13,\ \delta=-\tfrac13 γ = 3 1 , δ = − 3 1 。
直觉 :均匀先验“浪费”了 x = 2 x=2 x = 2 这个完全无信息 的选项三分之一的权重,导致互信息按比例缩水。
(c) 一般模型下把损失写成一个 KL
设一般似然 p Y ∣ X ( ⋅ ∣ x ) = p y ( ⋅ ; x ) p_{Y|X}(\cdot|x)=p_y(\cdot;x) p Y ∣ X ( ⋅ ∣ x ) = p y ( ⋅ ; x ) ,
p x ⋆ p_x^\star p x ⋆ 为容量达到的先验,p y ⋆ = ∑ x p x ⋆ ( x ) p y ( ⋅ ; x ) p_y^\star=\sum_x p_x^\star(x)\,p_y(\cdot;x) p y ⋆ = ∑ x p x ⋆ ( x ) p y ( ⋅ ; x ) 。
对任意先验 q x q_x q x ,令对应输出边际 q Y = ∑ x q x ( x ) p y ( ⋅ ; x ) q_Y=\sum_x q_x(x)\,p_y(\cdot;x) q Y = ∑ x q x ( x ) p y ( ⋅ ; x ) 。
等距性质 (当 p x ⋆ ( x ) > 0 p_x^\star(x)>0 p x ⋆ ( x ) > 0 对所有 x x x 成立)给出
D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) = C , ∀ x D\!\big(p_y(\cdot;x)\,\|\,p_y^\star\big)=C,\ \forall x D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) = C , ∀ x 。
于是
C − I q x ( X ; Y ) = ∑ x q x ( x ) [ D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) − D ( p y ( ⋅ ; x ) ∥ q Y ) ] = ∑ y q Y ( y ) log q Y ( y ) p y ⋆ ( y ) = D ( q Y ∥ p y ⋆ ) . \begin{aligned}
C-I_{q_x}(X;Y)
&=\sum_x q_x(x)\Big[D\!\big(p_y(\cdot;x)\big\|p_y^\star\big)-D\!\big(p_y(\cdot;x)\big\|q_Y\big)\Big]\\
&=\sum_y q_Y(y)\log\frac{q_Y(y)}{p_y^\star(y)}
= D\!\big(q_Y\big\|p_y^\star\big).
\end{aligned} C − I q x ( X ; Y ) = x ∑ q x ( x ) [ D ( p y ( ⋅ ; x ) p y ⋆ ) − D ( p y ( ⋅ ; x ) q Y ) ] = y ∑ q Y ( y ) log p y ⋆ ( y ) q Y ( y ) = D ( q Y p y ⋆ ) .
答案 :q 1 ( ⋅ ) = q Y ( ⋅ ) q_1(\cdot)=q_Y(\cdot) q 1 ( ⋅ ) = q Y ( ⋅ ) ,q 2 ( ⋅ ) = p y ⋆ ( ⋅ ) q_2(\cdot)=p_y^\star(\cdot) q 2 ( ⋅ ) = p y ⋆ ( ⋅ ) 。
本质 :容量点把每个被使用的条件分布都“等距”推到同一中心 p y ⋆ p_y^\star p y ⋆ 。任何别的先验只是在改变输出边际 q Y q_Y q Y 与这个中心的 KL 距离。
(d) 若存在 x x x 使 p x ⋆ ( x ) = 0 p_x^\star(x)=0 p x ⋆ ( x ) = 0
这时仍有扩展的等距性质 :
D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) ≤ C D\big(p_y(\cdot;x)\|p_y^\star\big)\le C D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) ≤ C (等号仅对 p x ⋆ ( x ) > 0 p_x^\star(x)>0 p x ⋆ ( x ) > 0 的 x x x 成立)。
照 (c) 的分解,
C − I q x = D ( q Y ∥ p y ⋆ ) ⏟ (A) + ( C − ∑ x q x ( x ) D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) ) ⏟ (B) ≥ 0 . C-I_{q_x}= \underbrace{D\!\big(q_Y\big\|p_y^\star\big)}_{\text{(A)}}\
+\ \underbrace{\Big(C-\sum_x q_x(x)\,D\big(p_y(\cdot;x)\|p_y^\star\big)\Big)}_{\text{(B)}\ \ge 0}. C − I q x = (A) D ( q Y p y ⋆ ) + (B) ≥ 0 ( C − x ∑ q x ( x ) D ( p y ( ⋅ ; x ) ∥ p y ⋆ ) ) .
因此
C − I q x ≥ D ( q Y ∥ p y ⋆ ) . C-I_{q_x}\ \ge\ D\!\big(q_Y\big\|p_y^\star\big). C − I q x ≥ D ( q Y p y ⋆ ) .
结论 :选择 B 。即
C − I q x ( X ; Y ) ≥ D ( q 1 ( ⋅ ) ∥ q 2 ( ⋅ ) ) . \boxed{\,C-I_{q_x}(X;Y)\ \ge\ D\big(q_1(\cdot)\big\|q_2(\cdot)\big)\, }. C − I q x ( X ; Y ) ≥ D ( q 1 ( ⋅ ) q 2 ( ⋅ ) ) .
3. 典型序列(Typical Sequences)
设 Y 1 , … , Y N Y_1,\dots,Y_N Y 1 , … , Y N i.i.d.,Y i ∼ Bern ( α ) Y_i\sim\operatorname{Bern}(\alpha) Y i ∼ Bern ( α ) ,记总体分布为 p p p 。本题明确:对数以 2 为底 。(HW_4.pdf)
弱典型集(常用定义) :
T ε ( p ; N ) = { y N : ∣ − 1 N log p ( y N ) − H ( p ) ∣ ≤ ε } , \mathcal T_\varepsilon(p;N)=\Bigl\{y^N:\ \Bigl|\,-\tfrac1N\log p(y^N)-H(p)\Bigr|\le \varepsilon\Bigr\}, T ε ( p ; N ) = { y N : − N 1 log p ( y N ) − H ( p ) ≤ ε } ,
其中 H ( p ) = H B ( α ) = − α log 2 α − ( 1 − α ) log 2 ( 1 − α ) H(p)=H_B(\alpha)= -\alpha\log_2\alpha-(1-\alpha)\log_2(1-\alpha) H ( p ) = H B ( α ) = − α log 2 α − ( 1 − α ) log 2 ( 1 − α ) 。
对伯努利序列,若序列中 1 的个数为 k k k ,则
− 1 N log p ( y N ) = − k N log 2 α − ( 1 − k N ) log 2 ( 1 − α ) -\tfrac1N\log p(y^N)= -\tfrac{k}{N}\log_2\alpha-\bigl(1-\tfrac{k}{N}\bigr)\log_2(1-\alpha) − N 1 log p ( y N ) = − N k log 2 α − ( 1 − N k ) log 2 ( 1 − α ) 。
(a) α = 1 2 \alpha=\tfrac12 α = 2 1
此时每个长度为 N N N 的二进制序列的概率都相等 :p ( y N ) = 2 − N p(y^N)=2^{-N} p ( y N ) = 2 − N 。于是
− 1 N log 2 p ( y N ) = 1 = H B ( 1 2 ) , -\tfrac1N\log_2 p(y^N)=1=H_B\!\Big(\tfrac12\Big), − N 1 log 2 p ( y N ) = 1 = H B ( 2 1 ) ,
对任意序列恒成立 。因此
T ε ( p ; N ) = { 0 , 1 } N , ∣ T ε ∣ = 2 N . \mathcal T_\varepsilon(p;N)=\{0,1\}^N,\qquad |\mathcal T_\varepsilon|=2^N. T ε ( p ; N ) = { 0 , 1 } N , ∣ T ε ∣ = 2 N .
直觉 :均匀抛硬币时,“每个序列都同样典型”,因为没有哪个序列更“意外”。
(b) α = 1 3 \alpha=\tfrac13 α = 3 1
典型集的刻画
把序列按类型 (1 的比例 α ^ = k / N \hat\alpha=k/N α ^ = k / N )分组。
典型条件等价于 α ^ \hat\alpha α ^ 落在 α \alpha α 的一个小邻域(由 ε \varepsilon ε 决定):
T ε ( p ; N ) = { y N : ∣ − α ^ log 2 1 3 − ( 1 − α ^ ) log 2 2 3 − H B ( 1 3 ) ∣ ≤ ε } . \mathcal T_\varepsilon(p;N)=\Bigl\{y^N:\ \bigl|-\hat\alpha\log_2\tfrac13-(1-\hat\alpha)\log_2\tfrac23 - H_B(\tfrac13)\bigr|\le\varepsilon\Bigr\}. T ε ( p ; N ) = { y N : − α ^ log 2 3 1 − ( 1 − α ^ ) log 2 3 2 − H B ( 3 1 ) ≤ ε } .
规模的指数级增长率 (方法:types 计数或 AEP)
具有类型 α ^ \hat\alpha α ^ 的序列数 ( N k ) \binom{N}{k} ( k N ) ,其数量级 ≈ 2 N H B ( α ^ ) \approx 2^{N H_B(\hat\alpha)} ≈ 2 N H B ( α ^ ) 。
典型集把 α ^ \hat\alpha α ^ 限定在 1 3 \tfrac13 3 1 附近,主导项来自 α ^ = 1 3 \hat\alpha=\tfrac13 α ^ = 3 1 。
因此
∣ T ε ( p ; N ) ∣ ≐ 2 N H B ( 1 / 3 ) ( N 充分大 ) , |\mathcal T_\varepsilon(p;N)|\ \doteq\ 2^{\,N\,H_B(1/3)}\quad(N\ \text{充分大}), ∣ T ε ( p ; N ) ∣ ≐ 2 N H B ( 1/3 ) ( N 充分大 ) ,
其中“≐ \doteq ≐ ”表示指数级等价。
答案 :典型集为上述满足弱典型条件的所有序列;其规模的指数增长率为
lim N → ∞ 1 N log 2 ∣ T ε ( p ; N ) ∣ = H B ( 1 / 3 ) . \boxed{\ \lim_{N\to\infty}\tfrac1N\log_2|\mathcal T_\varepsilon(p;N)|=H_B(1/3)\ }. N → ∞ lim N 1 log 2 ∣ T ε ( p ; N ) ∣ = H B ( 1/3 ) .
本质 :AEP 告诉我们长度 N N N 的“高概率”序列数约为 2 N H ( p ) 2^{N H(p)} 2 N H ( p ) 。α = 1 / 2 \alpha=1/2 α = 1/2 时即 2 N 2^N 2 N ;α = 1 / 3 \alpha=1/3 α = 1/3 时为 2 N H B ( 1 / 3 ) 2^{N H_B(1/3)} 2 N H B ( 1/3 ) 。
小结与复习要点
反向 I-投影 :在“模型空间”里最小化 D ( p ∥ ⋅ ) D(p\|\cdot) D ( p ∥ ⋅ ) ;对数凸 ⇒ 走“几何平均路径”看单边导数;指数族 ⇔ 矩匹配。
容量与等距性质 :容量达到时输出边际均匀(本题二元时),且所有被使用的条件分布到该边际的 KL 相等为 C C C 。任意先验的损失正好是两个输出边际的 KL 。
典型集 :弱典型的核心是“每个典型序列的自信息率 ≈ H ( p ) \approx H(p) ≈ H ( p ) ”,规模指数级 ≈ 2 N H ( p ) \approx 2^{N H(p)} ≈ 2 N H ( p ) 。
如需,我可以把关键推导(如 (1a) 的导数计算、(2c) 的 KL 分解、(3b) 的类型上界)再展开成板书式细节。