这个流程对吗
Tạo vào: 27 tháng 10, 2025
Tạo vào: 27 tháng 10, 2025
简短结论:整体流程是对的、结构完整(核心概念→参考数据→汇总统计→munge→单性状遗传力→遗传相关→功能分区→细胞/组织富集→结果解读与QC)。作为入门与实操提纲已经够用。(LDSC分析流程描述.docx)
下面是我对文档的关键更正与增强建议,按重要性排序:
它表示总膨胀中由混杂因素(群体结构、样本重叠等)解释的比例,而不是由多基因性解释的比例。理想状态应接近 0;明显偏大提示混杂偏倚需要警惕。你的草稿将其解读为“来自多基因性的比例”,需要改正。(LDSC分析流程描述.docx)
病例-对照表型的尺度
如果是二元性状,请在 --h2 时提供 --samp-prev 与 --pop-prev,才能把观察尺度遗传力转换到责任度(liability)尺度;否则输出为观察尺度,跨研究比较会失真。(LDSC分析流程描述.docx)
祖源匹配
你已强调了欧洲/东亚/非洲 LD 分数与权重文件应与 GWAS 人群匹配——这点非常关键;实际执行时务必同一祖源使用成套文件(HM3 列表、eur_w_ld_chr/ 或对应人群的 *_w_ld_chr/、以及 baselineLD 同一版本)。(LDSC分析流程描述.docx)
样本量列与有效样本量
如果 SNP 间样本量不一致,应在 munge 时提供每个 SNP 的 N 列;病例-对照可使用
作为 N。避免仅给一个总样本量常数。(LDSC分析流程描述.docx)
等位基因与频率 QC
munge 时务必:
--merge-alleles 保持与参考一致;解释截距(intercept)时的细节
超大样本/高多基因性下,即使无严重混杂,截距也可能略大于 1(衰减偏倚);因此更稳的做法是同时查看 ratio 与 jackknife 标准误,而不是仅看截距是否等于 1。(LDSC分析流程描述.docx)
遗传相关(rg)中的样本重叠
报告并解读 双性状截距(cross-trait intercept)。显著大于 0 常提示样本重叠或系统性偏倚;必要时可做敏感性分析(更严格的 QC、或换人群匹配的参考)。(LDSC分析流程描述.docx)
分区遗传力(S-LDSC)的基线模型
进行功能富集时,请始终把自定义注释与 baselineLD(建议 v2.2 系列)一起回归,以校正 MAF、LD 与功能注释间的相关性;报告富集(enrichment)之外,也建议报告标准化效应 τ*(如可用)。进行多重检验校正(Bonferroni/FDR)再讨论显著性。(LDSC分析流程描述.docx)
细胞类型/组织特异性(LDSC-SEG / --h2-cts)
文档用“特异表达基因的 SNP”描述了思路;实操上建议采用官方/主流管线(如 --h2-cts 与 GTEx/Roadmap/单细胞衍生注释),并与 baselineLD 联合建模,防止因基因长度、基因密度造成的偏倚;对多细胞类型结果做多重校正。(LDSC分析流程描述.docx)
区域敏感性(例如 MHC)
长程 LD 区(如 chr6: ~25–34Mb)可能主导局部信号。建议做包含/排除 MHC 的对照分析,确认结论稳健。(LDSC分析流程描述.docx)
可复现性
固定 ldsc 与依赖库版本;记录所用 HM3 列表、权重、LD 分数、baselineLD 的版本与下载时间,并保存运行日志与 MD5。(LDSC分析流程描述.docx)
1) Munge(格式化)
bashmunge_sumstats.py \ --sumstats GWAS.txt \ --out trait1 \ --merge-alleles w_hm3.snplist \ --N-col N # 或 --N 500000;病例-对照请用 N_eff 列
2) 单性状遗传力(可选责任度尺度)
bashldsc.py \ --h2 trait1.sumstats.gz \ --ref-ld-chr eur_w_ld_chr/ \ --w-ld-chr eur_w_ld_chr/ \ --samp-prev 0.10 --pop-prev 0.05 \ # 二元性状才需要;定量性状去掉 --out trait1_h2
3) 遗传相关
bashldsc.py \ --rg trait1.sumstats.gz,trait2.sumstats.gz \ --ref-ld-chr eur_w_ld_chr/ \ --w-ld-chr eur_w_ld_chr/ \ --out trait1_trait2_rg
4) 分区遗传力(功能富集)
bashldsc.py \ --h2 trait1.sumstats.gz \ --ref-ld-chr baselineLD_v2.2/baselineLD.,my_annot. \ --w-ld-chr eur_w_ld_chr/ \ --overlap-annot \ --out trait1_sldsc
5) 细胞/组织特异性(如使用表达注释)
bashldsc.py \ --h2-cts trait1.sumstats.gz \ --ref-ld-chr baselineLD_v2.2/baselineLD. \ --w-ld-chr eur_w_ld_chr/ \ --ref-ld-chr-cts GTEx_v8_tissue.ldcts \ --out trait1_cts
N(病例-对照用 N_eff)与等位基因频率/丢弃模糊位点h2、SE、Intercept、ratio(ratio≈0 为佳)rg、SE、P 值与cross-trait intercept总结:流程主线是正确且清晰的;把上面的“小更正(ratio)”和这些执行层面的细节补全后,你的 LDSC 流程就既概念准确又可直接落地了。(LDSC分析流程描述.docx)