我现在提出一个疑问:在使用系谱矫正后的BLUP作为G BLUP表型输入时,会出现精准度虚高现象,(双...
Created on: February 4, 2026
Answered using GPT-5.2 Thinking by Chat01
Created on: February 4, 2026
Answered using GPT-5.2 Thinking by Chat01
我现在提出一个疑问:在使用系谱矫正后的BLUP作为G BLUP表型输入时,会出现精准度虚高现象,(双重收缩及数据泄露)但是,经过引入新的评估方式ranksum,即预测前N名样本在真实数据中的排名之和。该指标越小越好,结果发现矫正后尽管精度非常高,但是ranksum指标明显低于原始表型很多。这能说明什么问题呢?精度到底是虚高还是确实矫正有效呢?
你这个现象(“相关/精度很高,但 top-N 的 ranksum 反而更差”)在用 (系谱矫正后的)BLUP/EBV 当作 GBLUP 的表型输入时非常典型,通常说明:** 你看到的“精度”很可能不是你真正关心的“选拔能力”,并且存在你提到的两类风险: 数据泄露和双重收缩(double shrinkage)**。
下面按逻辑把它拆开讲清楚。
常见的精度是 Pearson 相关(r)、R² 或相关类的 accuracy。它更强调整体线性一致性,而不是“极端尾部(top-N)是否抓得准”。
换句话说:
相关高 ≠ top-N 选得准。
ranksum 专门看“育种/筛选决策”那一端的表现。
你把 **已经是 BLUP/EBV(本身就是收缩估计)**的量当作“表型”再喂给 GBLUP,等于又做了一次“用关系矩阵做正则/收缩”。
典型后果:
在你描述的两种隐患里,ranksum 变差更像在提示“双重收缩/尾部被压扁”这个机制;
但如果“精度高得离谱”,那数据泄露也要高度警惕。
表现特征:
这意味着:
“矫正后精度高”更多是因为目标变量更平滑、更接近模型假设,而不是你真的更会挑出最好的人。
最典型的泄露方式是:
这样会导致:
用一句话概括:
对“育种/选拔 top-N”的目标来说:你的结果更支持“相关精度在虚高或至少是误导性的”,而不是“矫正一定更有效”。
因为你引入的 ranksum 直接评价“挑前 N 名是否真的好”,它变差说明实际决策质量在下降。
更严谨一点说:
做交叉验证时应当:
只要你用过“全体”去算 BLUP,再去拆分评估,精度几乎一定偏乐观。
行业里为避免双重收缩,常见做法是:
这样能显著缓解你说的“双重收缩”。
除了 ranksum,再加两三个更直观的:
如果相关很高但这些都差,基本可以断定:相关精度对你的目标是误导的。
如果你愿意,我可以按你现在的流程帮你画一张“可能泄露点/双重收缩点”的流程图,并给出一套最小改动的交叉验证实现方式(尤其是“每折只用训练集算伪表型/权重”的那部分)。你只要告诉我:你算“系谱矫正BLUP”的混合模型里包含哪些随机效应(A矩阵?家庭效应?批次?)以及交叉验证是按个体随机分折还是按家系/年份分折。