在分组为4,分类变量和连续变量的统计量符号有哪些?

Creado el: 5 de noviembre de 2025

Respondido usando GPT-5 Pro por Chat01

Pregunta

在分组为4,分类变量和连续变量的统计量符号有哪些?

Pensamiento

Interpreting symbols

I'm mapping out the statistical symbols for categorical and continuous variables when data is grouped into 4, covering counts, means, standard deviations, medians, quartiles, and effect sizes.

Listing notation

I’m compiling a list of statistical notations for group labels, sample sizes, percentages, means, standard deviations, medians, quartile intervals, and confidence intervals, including symbols for categorical and continuous variables.

Ensuring clarity

OK, let's finalize the Chinese answer, focusing on statistical notations and maintaining a professional, friendly tone.

Reasoned for 4m 53s

Respuesta

下面给你一份「4 组分组」时常用的统计量符号速查表,按分类变量连续变量分别列出,并包含常见的组间比较所用检验统计量的记号。


统一记号(适用于下文)

  • 组索引:g=1,2,3,4g=1,2,3,4
  • 各组样本量:ngn_g,总样本量:N=g=14ngN=\sum_{g=1}^{4} n_g
  • 连续变量观测:第 gg 组第 ii 个观测为 xgix_{gi}
  • 分类变量水平数:KK,第 kk 类为 k=1,,Kk=1,\dots,K

一、分类变量(定类/定序)

描述性统计的常用符号

  • 计数(频数):ngkn_{gk}fgkf_{gk} —— 第 gg 组中第 kk 类的个数
  • 比例(样本比例):p^gk=ngkng\hat p_{gk} = \dfrac{n_{gk}}{n_g}
  • 总计:nk=g=14ngkn_{\cdot k}=\sum_{g=1}^4 n_{gk},总体比例(样本估计)p^k=nkN\hat p_{\cdot k}=\dfrac{n_{\cdot k}}{N}
  • 常见表格写法:n(%)n(\%),即 ngkn_{gk}p^gk×100%\hat p_{gk}\times100\%

总体参数 vs 样本统计量(有时也需要区分)

  • 总体比例:πgk\pi_{gk}(也常写 pgkp_{gk}
  • 样本比例:p^gk\hat p_{gk}

组间比较的检验统计量符号

  • Pearson 卡方4×K4\times K 列联表): χ2=g=14k=1K(ngkEgk)2Egk,Egk=ngnkN\chi^2=\sum_{g=1}^{4}\sum_{k=1}^{K}\frac{(n_{gk}-E_{gk})^2}{E_{gk}}, \quad E_{gk}=\frac{n_g\,n_{\cdot k}}{N}
  • Fisher 确切检验:小样本/期望频数过小时报“精确 pp
  • 效应量:Cramér’s V=χ2N(min(4,K)1)V=\sqrt{\dfrac{\chi^2}{N(\min(4,K)-1)}};若 K=2K=2 还可报 OR、RR

二、连续变量(定量)

描述性统计的常用符号

  • 样本均值xˉg=1ngixgi\bar x_g=\dfrac{1}{n_g}\sum_i x_{gi}
  • 样本标准差sgs_g样本方差sg2s_g^2
  • 均值标准误SE(xˉg)=sgngSE(\bar x_g)=\dfrac{s_g}{\sqrt{n_g}}
  • 中位数mgm_g四分位数Q1g,Q3gQ_{1g},Q_{3g}四分位距IQRg=Q3gQ1gIQR_g=Q_{3g}-Q_{1g}
  • 区间:最小–最大 ming\min_gmaxg\max_g;95%CI 通常写作 xˉg±t0.975,ng1SE(xˉg)\bar x_g \pm t_{0.975,\,n_g-1}\cdot SE(\bar x_g)
  • 常见表格写法:
    • 近似正态:xˉ±s\bar x \pm s(各组写 xˉg±sg\bar x_g \pm s_g
    • 偏态/稳健:m[Q1,Q3]m[Q_1,Q_3]m(IQR)m(IQR)

总体参数 vs 样本统计量

  • 总体均值:μg\mu_g,总体方差:σg2\sigma_g^2
  • 样本均值/方差:xˉg,sg2\bar x_g, s_g^2

4 组比较的检验统计量符号

  • 单因素方差分析(ANOVA) F=MSBMSW,df1=41=3,  df2=N4F=\frac{MS_B}{MS_W},\quad df_1=4-1=3,\; df_2=N-4 (近似正态且方差齐)
  • Welch ANOVA:方差不齐时的 FWF_W
  • Kruskal–Wallis 秩和检验:非正态/有明显异常值时的 HH,自由度 df=3df=3
  • 方差齐性/正态性辅助检验(可选):Levene WW、Shapiro–Wilk WW
  • 效应量η2=SSB/SST\eta^2=SS_B/SS_T、偏 ηp2\eta_p^2;非参数时可报 ϵ2\epsilon^2 或 Cliff’s δ\delta
  • 事后比较:Tukey / Bonferroni(均值差)或 Dunn(秩和),报告校正后的 pp

三、简明示例(写作样式)

  • 分类变量(性别,K=2K=2
    组1:45 (52.3%),组2:40 (48.2%),组3:…,组4:…;
    χ2=7.84,df=3,p=0.049\chi^2=7.84,\,df=3,\,p=0.049;Cramér’s V=0.18V=0.18
  • 连续变量(年龄,近正态)
    组1:62.4±8.162.4\pm8.1,组2:…,组3:…,组4:…;
    ANOVA:F(3,N4)=4.12,p=0.007F(3,\,N-4)=4.12,\,p=0.007η2=0.09\eta^2=0.09
  • 连续变量(住院天数,偏态)
    组1:7 [5,10][5,10],组2:…,组3:…,组4:…;
    Kruskal–Wallis:H=11.6,df=3,p=0.009H=11.6,\,df=3,\,p=0.009

一句话总结

  • 分类变量:用 n(%)n(\%) 描述,比较用 χ2\chi^2(或 Fisher),可加 Cramér’s VV
  • 连续变量:正态用 xˉ±s\bar x \pm s,偏态用 m[IQR]m[IQR];4 组比较常用 ANOVA 的 FF(或 Welch FWF_W / Kruskal–Wallis 的 HH),可配 η2\eta^2 等效应量。

Compartir este Q&A