完成这份非参数统计作业,每题写出详细过程
创建于:2025年5月28日
创建于:2025年5月28日
python# compute Kruskal-Wallis stat,p=stats.kruskal(*groups) stat,p (17.053365973072225, 0.0006891042185875871)
python# Let's compute Jonckheere-Terpstra using scipy? it's not in scipy but we can compute. # Compute J statistic: sum over i<j groups of number of wins where observation in later group > earlier def JT(groups): J=0 for i in range(len(groups)-1): for j in range(i+1,len(groups)): for a in groups[i]: for b in groups[j]: if b>a: J+=1 elif b==a: J+=0.5 return J J=JT(groups2) J 233.5
pythonn1,n2,n3=10,10,10 N2=n1+n2+n3 E=(N2**2 - (n1**2+n2**2+n3**2))/4 E 150.0
pythonvar=0 sizes=[n1,n2,n3] for i in range(len(sizes)-1): for j in range(i+1,len(sizes)): ni=sizes[i]; nj=sizes[j] var+= ni*nj*(ni+nj+1) var=var/72 var 87.5
pythonimport math, scipy.stats as st z=(J - E)/math.sqrt(var) p=1-st.norm.cdf(z) # one-sided because alternative increasing z,p (8.926525479874973, 0.0)
python# compute ranks ascending average for ties all_values = industrial+commercial+construction+transport ranks=stats.rankdata(all_values, method='average') # Partition R1=sum(ranks[0:10]) R2=sum(ranks[10:20]) # commercial R3=sum(ranks[20:30]) # construction R4=sum(ranks[30:40]) # transport R1,R2,R3,R4 (168.5, 127.5, 330.5, 193.5)
pythonH=(12/(N*(N+1)))*(R1**2/n + R2**2/n+ R3**2/n+ R4**2/n)-3*(N+1) H 16.990975609756106
作业题目来源:见用户所附 《多个独立样本的非参数检验》 PDF 第 1 页
下面按题号给出 完整计算过程、公式推导与结论。
方法:Kruskal-Wallis H 检验(k = 4,n = 10,α = 0.05)。
| 行业 | 原始观测值 | 排名之和 |
|---|---|---|
| 工业 | 9.5 8.6 8.8 6.7 7.3 6.8 7.7 7.7 8.6 9.7 | 168.5 |
| 商业 | 8.1 8.2 7.6 7.7 8.0 7.5 7.3 8.2 8.5 8.4 | 127.5 |
| 建筑业 | 8.6 8.8 9.2 8.8 9.8 9.7 9.2 9.7 10.2 9.7 | 330.5 |
| 交通运输业 | 9.0 7.9 8.2 7.6 8.7 7.8 8.8 7.6 8.9 8.7 | 193.5 |
(40 个观测值采用平均秩,完整排名表略)
平秩修正后
(使用 SciPykruskal 结果一致)。
临界值:
结论:四个行业 2015 年资产报酬率分布存在显著差异。
方法:Jonckheere–Terpstra (J-T) 有序检验
三组总体分布相同
随年龄组次序呈单调递增
样本量:
后组观测值大于前组观测值的次数
单侧临界值
结论:数据支持“年龄越大 β-脂蛋白含量越高”的经验规律。
设样本量 为组 1 秩和, 为 Wilcoxon-Mann-Whitney 统计量。
K-W 统计量
代入 并整理得
而 Wilcoxon 的常用标准化形式
于是
说明当 时 Kruskal-Wallis 与 Wilcoxon 秩和检验完全等价。
设连续总体下三独立观测 。
令
因此
若需查看完整秩表或对题 2 进行精确 p 值/连续性修正计算,请告诉我!
下面依照 “多个独立样本的非参数检验” 作业要求,仅使用 PPT 中出现的经典非参数方法(Kruskal‑Wallis、Jonckheere–Terpstra、Wilcoxon 秩和、J‑T 统计量的协方差推导),逐题给出完整计算过程与结论。题目原表见作业 PDF 。
方法:Kruskal‑Wallis H 检验(k = 4,n₁ = n₂ = n₃ = n₄ = 10)
| 行业 | 秩和 |
|---|---|
| 工业 | 168.5 |
| 商业 | 127.5 |
| 建筑业 | 330.5 |
| 交通运输 | 193.5 |
,拒绝 H₀。
结论:四个行业 2015 年总资产报酬率的分布存在显著差异。
方法:Jonckheere–Terpstra (J‑T) 次序检验(单侧 α = 0.05)
样本量 。
依年龄组次序(20‑30 岁 → 30‑40 岁 → 40‑50 岁)统计「后组 > 前组」的比较次数得
。
期望与方差(无秩相同)
标准化
决策 临界值 。
,拒绝 H₀。
结论:年龄越大,β‑脂蛋白含量越高的经验规律得到显著支持。
可见 ,两检验在 k = 2 条件下统计一致,故等价。
| 题号 | 检验 | 统计量 | p‑值/判定 | 结论 |
|---|---|---|---|---|
| 1 | Kruskal‑Wallis | 拒绝 H₀ | 行业间差异显著 | |
| 2 | J‑T | 拒绝 H₀ | β‑脂蛋白随年龄递增 | |
| 3 | 理论推导 | — | 两检验等价 | |
| 4 | 协方差 | — | 见推导 |
上述过程与公式均来自 PPT 中的非参数检验部分,无额外方法超出其范围。