我现在提出一个疑问:在使用系谱矫正后的BLUP作为G BLUP表型输入时,会出现精准度虚高现象,(双...

Created on: February 4, 2026

Answered using GPT-5.2 Thinking by Chat01

Question

我现在提出一个疑问:在使用系谱矫正后的BLUP作为G BLUP表型输入时,会出现精准度虚高现象,(双重收缩及数据泄露)但是,经过引入新的评估方式ranksum,即预测前N名样本在真实数据中的排名之和。该指标越小越好,结果发现矫正后尽管精度非常高,但是ranksum指标明显低于原始表型很多。这能说明什么问题呢?精度到底是虚高还是确实矫正有效呢?

Thought

Considering metrics for selection accuracy

The corrected BLUP may have better correlation but poorer ranking at the top due to shrinkage, which compresses extremes. Metrics like Spearman, NDCG, and ranksum might be more informative for evaluating selection. High accuracy could be misleading, so a proper validation using independent true phenotype is needed.

Analyzing correction effectiveness and accuracy

The key question is whether the correction is effective or if the accuracy seems inflated. If ranksum is worse, it could indicate bias in top predictions, underestimating extremes, or leakage. Accuracy might be inflated if observed data is not independent, using the same model for correction and prediction.

Considering selection metrics and shrinkage effects

When considering metrics for selection, double shrinkage can reduce variance and improve correlations but worsens extreme predictions. Ranksum becomes worse as top predictions converge to the mean. To decide, evaluate predictions against raw phenotypes, use multiple metrics like Pearson r and AUC, and check genetic gain through selection.

Evaluating selection accuracy and leakage

If ranksum is poor despite high accuracy, it suggests leakage or double shrinkage, inflating the correlation without distinguishing top individuals. High correlation doesn’t always mean effective correction for breeding. Suggestions: use de-regressed BLUP with reliability weights or rely on field trial phenotypes to improve selection accuracy.

Thought for 47s

Answer

你这个现象(“相关/精度很高,但 top-N 的 ranksum 反而更差”)在用 (系谱矫正后的)BLUP/EBV 当作 GBLUP 的表型输入时非常典型,通常说明:** 你看到的“精度”很可能不是你真正关心的“选拔能力”,并且存在你提到的两类风险: 数据泄露双重收缩(double shrinkage)**。

下面按逻辑把它拆开讲清楚。


1) 为什么“精度很高”但 ranksum 变差并不矛盾?

A. 你用的“精度”多半是全局相关指标

常见的精度是 Pearson 相关(r)、R² 或相关类的 accuracy。它更强调整体线性一致性,而不是“极端尾部(top-N)是否抓得准”。

  • 如果方法把所有个体都往均值拉近(更平滑、更收缩),
    相关系数可能会变“好看”(噪声变小、点云更窄),
    但极端个体的区分度变差,于是top-N 抓错人,ranksum 就会变大(更差)。

换句话说:

相关高 ≠ top-N 选得准。
ranksum 专门看“育种/筛选决策”那一端的表现。

B. 双重收缩会“抬高相关”,但“压扁极端”

你把 **已经是 BLUP/EBV(本身就是收缩估计)**的量当作“表型”再喂给 GBLUP,等于又做了一次“用关系矩阵做正则/收缩”。

典型后果:

  • 预测值分布更窄(方差被压小)
  • 中间大多数个体顺序更稳定 ⇒ 全局相关容易升高
  • 但真正优秀的尾部被压扁、被“拉回均值” ⇒ top-N 辨别力下降
  • 所以 ranksum 变差很常见

2) ranksum 明显更差更像在提示什么?

在你描述的两种隐患里,ranksum 变差更像在提示“双重收缩/尾部被压扁”这个机制
但如果“精度高得离谱”,那数据泄露也要高度警惕。

情况 1:主要是“双重收缩”(很常见)

表现特征:

  • Pearson r / R² 很高
  • 但 top-N 指标(ranksum、top-N 命中率、top-N 平均真实值)变差
  • 预测值的方差比真实值小很多(极端不够极端)

这意味着:

“矫正后精度高”更多是因为目标变量更平滑、更接近模型假设,而不是你真的更会挑出最好的人。

情况 2:存在“数据泄露”(更危险)

最典型的泄露方式是:

  • 你在计算“系谱矫正后的BLUP”时,用到了全体数据(包括你后续当作验证集/测试集的个体或其亲缘信息)
  • 然后再用这些 BLUP 去做 GBLUP 的训练与评估

这样会导致:

  • 看起来“精度特别高”(因为验证集信息已经混进了表型/目标里)
  • 但在真正“独立、未来数据”的选拔中不一定好
    不过:泄露通常会让排名也更像“看过答案”,所以 ranksum 未必更差;你这里 ranksum 变差反而更像“双重收缩”主导,但两者可能同时存在。

3) 那到底是“精度虚高”还是“矫正有效”?

用一句话概括:

对“育种/选拔 top-N”的目标来说:你的结果更支持“相关精度在虚高或至少是误导性的”,而不是“矫正一定更有效”。
因为你引入的 ranksum 直接评价“挑前 N 名是否真的好”,它变差说明实际决策质量在下降。

更严谨一点说:

  • 矫正可能确实降低了噪声(所以全局相关更高)
  • 但它同时降低了尾部可辨识度/引入了偏差(所以 top-N 更差)
  • 如果你的应用场景是“选前 N 个做留种/进下一轮”,那你更应该相信 ranksum(或同类 top-N 指标),而不是只看相关。

4) 建议你用这几步把“虚高 vs 真有效”彻底判清

① 严格避免泄露:BLUP/矫正必须“只用训练集算”

做交叉验证时应当:

  • 每一折:用训练集拟合混合模型,得到训练集的矫正量/伪表型
  • 验证集绝不能参与该模型的估计(尤其不能在同一个方程里贡献信息)

只要你用过“全体”去算 BLUP,再去拆分评估,精度几乎一定偏乐观。

② 不要直接用 BLUP/EBV 当表型;用 de-regressed 伪表型 + 权重

行业里为避免双重收缩,常见做法是:

  • 用 **去回归/去收缩(de-regressed)**的 EBV/BLUP 当伪表型
  • 并用其 reliability/有效信息量做权重(因为不同个体的 BLUP 精度不同)

这样能显著缓解你说的“双重收缩”。

③ 同时报告“相关 + 排名 + 尾部收益”三类指标

除了 ranksum,再加两三个更直观的:

  • Spearman ρ(看排序,不看线性尺度)
  • top-N 命中率(真实 top-N 里命中了多少)
  • 被你选中的 top-N 的真实值均值(这才对应“遗传增益/选拔收益”)

如果相关很高但这些都差,基本可以断定:相关精度对你的目标是误导的。

④ 看“偏倚/膨胀”:回归斜率 b(true ~ a + b·pred)

  • b ≪ 1 往往意味着预测被过度收缩(尾部压扁)
  • b ≫ 1 可能是膨胀/泄露/尺度问题

结论(对应你最后两个问题)

  • ranksum 明显变差说明:在“选前 N 个”的任务上,矫正后的方案更不会挑尖子,即使它的“精度/相关”很高。
  • 因此,你看到的高精度很可能是虚高或至少不代表选拔有效(双重收缩是最常见原因;泄露也需要排查)。
  • 是否“矫正确实有效”,要以严格无泄露的验证 + 去收缩伪表型 + top-N 指标一致变好作为判据。

如果你愿意,我可以按你现在的流程帮你画一张“可能泄露点/双重收缩点”的流程图,并给出一套最小改动的交叉验证实现方式(尤其是“每折只用训练集算伪表型/权重”的那部分)。你只要告诉我:你算“系谱矫正BLUP”的混合模型里包含哪些随机效应(A矩阵?家庭效应?批次?)以及交叉验证是按个体随机分折还是按家系/年份分折。

Share this Q&A