图“惩罚样条 Cox 比例风险模型”

Question

图片中的这种分析方法有具体的学名或者规范化名称吗？

Answer 1

是的，这种做法在统计或流行病学文献里有一个比较公认的名字，通常被称为：

Penalized-spline Cox proportional hazards model
（中文常译为“惩罚样条 Cox 比例风险模型”，也可简称“惩罚样条 Cox 回归”或“P-spline Cox 回归”）。

为什么这样命名？

组件	含义	对应表格描述
Spline（样条）	用多节点的自然（或立方）样条基函数把连续自变量的非线性关系显式地展开	“在 Cox 中加入多节点基函数”
Penalized（惩罚/正则化）	在拟合时对样条系数加上 L1/L2 等惩罚，自动选择或收缩不重要的节点，避免过拟合	“在正则化下由算法挑选”
Cox proportional hazards model	基础模型框架仍是 Cox 比例风险	表格第一列“Cox”

因此它与 Restricted Cubic Spline (RCS) Cox 回归的差别在于：RCS 依赖固定且较少的结点，而 penalized-spline 方法通常放置更密集的结点，再让正则化自动决定哪些基函数真正起作用，既保留可解释性又提升灵活度。Society for Risk Analysis R Project Search

常见的实现/写法

生态	典型实现方式
R	`survival::coxph()` 配合 `pspline()`；`mgcv::gam()` 中 `s()` + `family=cox.ph`；`penalized` 包；或先用 `splines::ns()` 展开，再用 `glmnet::cv.glmnet()` 做 L1/L2 惩罚
Python	`scikit-survival` 的 `CoxnetSurvivalAnalysis`（天然支持 L1 / L2 Elastic-net 惩罚）；`lifelines` 中 `CoxPHFitter(penalizer=...)` 也能结合手动的样条特征
Stata / SAS	分别有 `stpspline`、`proc phreg` + spline 基函数等宏或流程

一、总体工作流

步骤	关键操作	说明
1. 数据准备	得到 `time`（随访时间）、`status`（结局 0/1）及连续协变量 `x`	需要确保时间单位一致、结局 1 表示事件发生
2. 生成样条基	使用自然立方样条 ns() 或惩罚样条 pspline()；结点（knots）常放在 5–10 个分位点	先“过密设置” → 再用惩罚收缩冗余基
3. 拟合带惩罚的 Cox	加 L2（ridge）或 Elastic-net（L1+L2）惩罚；惩罚强度 λ 通过交叉验证 / GCV / REML 选	惩罚项会把不重要的基函数系数→0
4. 诊断 & 可视化	检查 PH 假设、绘制 `x` 对 log(hazard) 的平滑曲线及置信区间	也可用 Schoenfeld 残差检验
5. 结果解读	读取曲线形状、换算成 HR（每单位变化的相对风险）	写在结果报告或论文

二、R 代码范例

r
library(survival)  # coxph / pspline
library(splines)   # 可选：ns()

# 1. 数据：假设 df 含 time, status, age
df <- read.csv("my_survival_data.csv")

# 2. 拟合惩罚样条 Cox —— 方法 A：pspline + coxph
fit_ps <- coxph(Surv(time, status) ~ pspline(age, df = 8),  # df 控制上限(结点数)
                data = df)

# 方法 B：mgcv::gam，用 REML 自动选 λ
# library(mgcv)
# fit_ps <- gam(Surv(time, status) ~ s(age, bs = "ps"), family = cox.ph(), data = df)

# 3. 摘要结果
summary(fit_ps)           # 查看平滑参数、有效自由度

# 4. 可视化 —— 预测曲线
age_seq <- seq(min(df$age), max(df$age), length = 200)
pred_dat <- data.frame(age = age_seq,
                       surv = rep(1, 200))           # 其他协变量设参考值
lp <- predict(fit_ps, newdata = pred_dat, type = "lp", se.fit = TRUE)

library(ggplot2)
ggplot(data.frame(age = age_seq,
                  hr  = exp(lp$fit),
                  lcl = exp(lp$fit - 1.96*lp$se.fit),
                  ucl = exp(lp$fit + 1.96*lp$se.fit)),
       aes(age, hr)) +
  geom_line() +
  geom_ribbon(aes(ymin = lcl, ymax = ucl), alpha = .2) +
  labs(y = "Hazard Ratio vs age", x = "Age")

要点解读

pspline() 默认在 age 范围放置较多结点（df 上限），再根据 λ 把系数收缩。
R 的 coxph 里会自动用类似岭惩罚；mgcv::gam 则内部以 REML/GCV 方式选 λ。
结果中的 edf（effective df）反映真正保留下的曲线复杂度——数值越接近 1 表示几乎线性。

三、Python 代码范例

python
import numpy as np
import pandas as pd
from sklearn.preprocessing import SplineTransformer, StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import KFold, GridSearchCV
from sksurv.linear_model import CoxnetSurvivalAnalysis
from sksurv.util import Surv

# 1. 数据
df = pd.read_csv("my_survival_data.csv")
X = df[["age"]]   # 可多列
y = Surv.from_dataframe("status", "time", df)

# 2. 样条基：9 结点的自然立方样条
spline = SplineTransformer(degree=3, n_knots=9, knots="quantile", extrapolation="linear")

# 3. Elastic-net 惩罚 Cox
coxnet = CoxnetSurvivalAnalysis(l1_ratio=0.5, alpha_min_ratio=0.01, max_iter=1e5)

pipe = make_pipeline(spline, StandardScaler(), coxnet)

# 4. 交叉验证选 λ
cv = KFold(n_splits=5, shuffle=True, random_state=1)
grid = {"coxnetsurvivalanalysis__alphas": [[np.logspace(-4, 1, 60)]]}
model = GridSearchCV(pipe, grid, cv=cv, n_jobs=-1).fit(X, y)

best_model = model.best_estimator_

# 5. 输出部分系数
coef = best_model[-1].coef_
print(coef)

提示

SplineTransformer 需 scikit-learn ≥1.0；CoxnetSurvivalAnalysis 承接了 glmnet 风格的路径收缩。

若您更喜欢 lifelines，可先用 patsy/SplineTransformer 生成基函数，再传到 lifelines.CoxPHFitter(penalizer=λ, l1_ratio=…)。

四、常见实务问题 & 建议

问题	建议
结点放多少？	5–10 个分位点够用；越多越依赖 λ 收缩；2–3 个可能欠拟合
λ 参数怎么选？	R `coxph` / `gam` 自动、Python 用 CV / GridSearch；亦可手动对比偏差–方差
非线性很弱时？	惩罚会让曲线自动趋近直线，可保守使用较多结点
多协变量？	为每个连续变量各生成样条基并统一进入模型；分类变量按常规哑变量编码
结果解释？	建议画 HR 曲线 + 95%CI；或在关键分位点给出点 HR，方便临床/管理沟通

参考阅读

Eilers & Marx. Flexible Smoothing with B-splines and Penalties. 1996
Royston & Sauerbrei. Multivariable Model-building. 2008 — 第 5 章介绍惩罚样条在 Cox 中的实现
Simon et al. “Regularization Paths for Cox’s Proportional Hazards Model via Coordinate Descent.” J Stat Softw 2011

按照以上步骤即可在 R 或 Python 中快速上手惩罚样条 + Cox 回归；再结合具体项目要求（比如多重插补、交互项、外部验证）灵活调整即可。祝你建模顺利!

图“惩罚样条 Cox 比例风险模型”

Question

Réflexion

Providing formal method name

Réponse