我有一个小分子库,想从里边筛选出RXRα的内源性配体,我将小分子先在薛定谔进行了ligpre,然后分...
創建於:2026年6月25日
創建於:2026年6月25日
我有一个小分子库,想从里边筛选出RXRα的内源性配体,我将小分子先在薛定谔进行了ligpre,然后分别进行了SP,MOE和CDOCKER,后来又进行软件测评测评,发现SP的活性筛选能力很不错,CDOCKER次之,vina也还行,MOE测出的很差,由于vina对接太慢了,而且想筛出的化合物比较新颖,我就从库里提取出符合的化合物进行对接,在各个软件都和reference对比之后,每个软件都挑选出化合物,并且统计了哪些化合物在四个软件都i有,哪些软件在三个软件都有,哪些在两个软件都有,师姐说我接下来就是测这些配体在软件上表现的差异,我应该怎么做但是我老师执意让我做,我现在想知道他想我怎么做,看一下vina,moe,ds与薛定谔有没有一致性,要算RMSD,我之前有统计SP、moe 、CDOCKER的韦恩图,师姐说列出两两软件的RMSD,主要看薛定谔的,后边师姐又说看这些配体在各软件上表现的差异,那我到底应该咋做能符合我老师的意思
师姐和老师的意思大概率不是让你重新做一个“大筛选”,而是让你证明这些候选配体在不同对接软件里的表现是否一致,尤其是它们和薛定谔 SP 结果是否一致。
你可以把接下来工作理解成一句话:
以薛定谔 SP 为主参考,比较 Vina、MOE、DS/CDOCKER 对同一批候选化合物给出的结合构象、排序和关键相互作用是否一致;其中 RMSD 是最核心的量化指标之一。
你之前做的 SP、MOE、CDOCKER 韦恩图,只能说明:
哪些化合物被几个软件共同筛出来。
但它不能说明:
同一个化合物在不同软件里是不是以相似姿势进入 RXRα 结合口袋。
老师说“看 Vina、MOE、DS 与薛定谔有没有一致性,要算 RMSD”,重点应该是构象一致性,也就是 docking pose 是否相似。
所以你后面要补的是:
建议不要一上来把所有库都算 RMSD,太乱。你可以分层:
主分析集合:
四个软件都筛出来的化合物,或者至少三个软件共同筛出来的化合物。
次要分析集合:
SP 筛出来、并且在 Vina / MOE / CDOCKER 中至少一个也表现不错的化合物。
因为老师说“主要看薛定谔”,所以你可以这样定:
以 SP 筛选得到的候选化合物为主,比较这些化合物在 Vina、MOE、DS/CDOCKER 中的构象是否与 SP 一致。
这样就很贴合老师的意思。
对每个候选化合物,你要有这几个结构文件:
| 化合物 ID | SP pose | Vina pose | MOE pose | CDOCKER pose |
|---|---|---|---|---|
| Cmpd_001 | sdf/mae | pdbqt/sdf | mol2/sdf | sdf/mol2 |
| Cmpd_002 | sdf/mae | pdbqt/sdf | mol2/sdf | sdf/mol2 |
注意:
RMSD 必须是同一个化合物在不同软件中的构象比较,不是不同化合物之间算 RMSD。
比如:
这样才有意义。
你师姐说“列出两两软件的 RMSD,主要看薛定谔”,所以建议你分成两类表。
| Compound ID | SP-Vina RMSD | SP-MOE RMSD | SP-CDOCKER RMSD | 结论 |
|---|---|---|---|---|
| Cmpd_001 | 1.35 Å | 4.80 Å | 1.92 Å | Vina/CDOCKER 与 SP 一致,MOE 不一致 |
| Cmpd_002 | 2.10 Å | 3.70 Å | 2.45 Å | CDOCKER 较接近,MOE 偏差大 |
| Cmpd_003 | 0.95 Å | 1.88 Å | 1.50 Å | 多软件构象一致 |
这个表最能回应老师的话。
一般可以粗略这样解释:
| RMSD | 解释 |
|---|---|
| < 2.0 Å | 构象较一致 |
| 2.0–3.0 Å | 中等一致 |
| > 3.0 Å | 构象差异较大 |
| > 5.0 Å | 基本不一致,可能翻转或结合模式不同 |
| Compound ID | SP-Vina | SP-MOE | SP-CDOCKER | Vina-MOE | Vina-CDOCKER | MOE-CDOCKER |
|---|---|---|---|---|---|---|
| Cmpd_001 | 1.35 | 4.80 | 1.92 | 4.50 | 2.10 | 4.20 |
| Cmpd_002 | 2.10 | 3.70 | 2.45 | 3.30 | 2.20 | 3.90 |
这个表可以体现“各软件之间的差异”。
但你的论文或汇报里要突出:
SP 是主要参考,Vina、MOE、CDOCKER 是与 SP 比较的一致性验证工具。
除了单个化合物的 RMSD,还要做一个总表:
| 比较对象 | 平均 RMSD | 中位数 RMSD | RMSD < 2 Å 的化合物数 | RMSD < 3 Å 的化合物数 | 结论 |
|---|---|---|---|---|---|
| SP vs Vina | 2.10 Å | 1.85 Å | 12/20 | 16/20 | 与 SP 一致性较好 |
| SP vs CDOCKER | 2.45 Å | 2.20 Å | 9/20 | 15/20 | 次之 |
| SP vs MOE | 4.30 Å | 4.10 Å | 3/20 | 5/20 | 一致性较差 |
这个表非常重要。
因为你之前测评发现:
SP 活性筛选能力不错,CDOCKER 次之,Vina 也还行,MOE 很差。
如果 RMSD 结果也显示:
MOE 与 SP pose 差异大,Vina/CDOCKER 与 SP 更接近。
那你的故事就很顺:
MOE 筛选能力差,可能和其预测结合构象与 SP/CDOCKER/Vina 不一致有关。
RMSD 是构象差异,但有时 RMSD 稍高,关键相互作用仍然类似。所以建议再加一个相互作用比较。
比如对 RXRα 的结合口袋,你可以统计每个化合物在各软件中是否保留:
表格可以这样做:
| Compound ID | Software | H-bond residues | Hydrophobic residues | 与 reference 是否相似 | 备注 |
|---|---|---|---|---|---|
| Cmpd_001 | SP | Argxxx, Serxxx | Leuxxx, Phexxx | 是 | pose 稳定 |
| Cmpd_001 | Vina | Argxxx | Leuxxx, Phexxx | 是 | 与 SP 接近 |
| Cmpd_001 | MOE | 无 | 其他区域 | 否 | pose 偏移 |
| Cmpd_001 | CDOCKER | Argxxx, Serxxx | Leuxxx | 是 | 与 SP 接近 |
这样你就不是单纯说“RMSD 低”,而是能解释为什么这个化合物可靠。
SP score、Vina score、MOE score、CDOCKER interaction energy 不是同一个量纲,不能直接说:
SP -10 比 MOE -8 好。
更合理的做法是比较排名一致性。
你可以做:
| Compound ID | SP rank | Vina rank | MOE rank | CDOCKER rank |
|---|---|---|---|---|
| Cmpd_001 | 1 | 3 | 18 | 4 |
| Cmpd_002 | 2 | 5 | 20 | 6 |
| Cmpd_003 | 3 | 2 | 10 | 1 |
然后计算:
如果不会算相关性,至少可以做排名表和散点图。
你最终可能得到类似结论:
Vina 和 CDOCKER 与 SP 的排名趋势较一致,而 MOE 与 SP 的排名和构象一致性均较差。
这就很符合你前面软件测评的结果。
建议你给老师汇报时不要说“我不知道该做什么”,而是说:
我准备以薛定谔 SP 结果为主要参考,对共同筛选出的候选化合物进行多软件一致性分析。具体包括:第一,统计各软件筛选结果的重叠情况;第二,提取同一化合物在 SP、Vina、MOE 和 CDOCKER 中的最优 docking pose,计算两两 RMSD,重点比较 Vina/MOE/CDOCKER 与 SP 的 RMSD;第三,比较这些化合物在不同软件中的排名和关键相互作用;最后筛选出在多个软件中构象一致、排名靠前、相互作用模式稳定的候选 RXRα 配体。
这段话基本就是你老师想听的。
最后你要回答的问题不是“哪个软件最好”,而是:
哪些候选化合物在多个软件中表现稳定,是否值得作为潜在 RXRα 内源性配体进一步实验验证。
比较理想的结论形式是:
综合多软件筛选、RMSD 构象一致性、排名趋势和关键相互作用分析,筛选出若干候选配体。其中部分化合物在 SP、Vina 和 CDOCKER 中均表现出较低 RMSD 和相似结合模式,说明其 docking 结果较稳定;而 MOE 预测构象与 SP 差异较大,与前期软件测评结果一致,因此 MOE 结果仅作为辅助参考。
一句话总结:
你接下来就以 SP 为主,把 Vina、MOE、CDOCKER 和 SP 对同一批候选化合物的 pose RMSD、排名和相互作用列出来,证明哪些化合物跨软件表现稳定,哪些软件结果不一致。
那我后边又怎么选出候选化合物呢
后边选候选化合物,建议不要只按“几个软件共有”选,而是做一个分级筛选规则。
你可以这样定:
满足这些条件:
这类就是你最终重点推荐的候选配体。
满足:
这类可以作为补充验证对象。
建议剔除:
比如每个化合物给分:
| 指标 | 给分 |
|---|---|
| SP 排名前 10% | 2 分 |
| CDOCKER 也入选 | 1 分 |
| Vina 也入选 | 1 分 |
| MOE 也入选 | 0.5 分 |
| SP-其他软件 RMSD < 2 Å | 2 分 |
| RMSD 2–3 Å | 1 分 |
| 与 reference 结合模式相似 | 2 分 |
| 保留关键相互作用 | 2 分 |
| 结构新颖 | 1–2 分 |
最后总分高的进候选。
你可以直接这样跟老师说:
我后续拟以 SP 结果为主,优先选择 SP 排名靠前、同时在 Vina 或 CDOCKER 中也表现较好、且与 SP docking pose 的 RMSD 小于 2–3 Å 的化合物。进一步结合 reference ligand 的结合模式、关键残基相互作用和结构新颖性,最终确定候选 RXRα 内源性配体。
| 分组 | 选择标准 | 用途 |
|---|---|---|
| A 组 | SP、Vina、CDOCKER 均支持,RMSD 低 | 最重点实验验证 |
| B 组 | SP 强,CDOCKER 或 Vina 支持,RMSD 中等 | 备选验证 |
| C 组 | 结构新颖,但软件一致性一般 | 探索性验证 |
你最终不要只选“四个软件都有”的。
因为 MOE 之前测评很差,所以MOE 不应该作为强制条件。
核心原则是:
SP 为主,CDOCKER/Vina 辅助验证,MOE 仅作参考;最终选跨软件构象稳定、结合模式合理、结构新颖的化合物。
可是我vina是库里提取出了环状的化合物,因为想要骨架新颖一点,不想要链状的,进行了对接,结合我前面给你的信息,我接下来应该怎么做可以符合我老师及师姐的想法,以及我怎么挑选化合物
你的 Vina 不是全库筛选,而是从库里先提取“环状/骨架新颖”的化合物再对接。所以后面不要把 Vina 当作和 SP、MOE、CDOCKER 完全平行的筛选软件,而要把它定位成:
Vina 是结构新颖性导向的补充验证工具。
这样最符合你前面的逻辑,也不会和老师、师姐的要求冲突。
建议你把候选池分成两部分:
A 类:多软件共同支持的化合物
来自 SP、CDOCKER、MOE 的交集或高排名重叠。
B 类:环状新颖骨架化合物
也就是你从库里提取出来跑 Vina 的那批。
然后重点看:
B 类环状化合物里,哪些也被 SP 或 CDOCKER 支持。
对每个候选化合物,算:
| 化合物 | SP score/rank | CDOCKER score/rank | MOE score/rank | Vina score/rank | SP-Vina RMSD | SP-CDOCKER RMSD | SP-MOE RMSD | 结论 |
|---|
注意:
Vina 只对环状化合物有结果,所以 Vina 列可以只填环状子库中的化合物。
不要强行要求每个化合物都有 Vina 结果。
满足:
这类最符合你的目标:
既新颖,又有多软件支持。
满足:
这类可以作为阳性对照式候选,不一定是最创新的。
满足:
这类可以保留为探索性候选,但不要放在主结论最前面。
因为你前面说:
所以最终权重应该是:
SP > CDOCKER ≈ Vina > MOE
MOE 只作为参考,不要因为某个化合物 MOE 好就优先选。
建议最终分 3 组报给老师:
| 组别 | 化合物类型 | 选择标准 |
|---|---|---|
| Group 1 | 核心候选 | 环状新颖 + SP 高排名 + CDOCKER/Vina 支持 + RMSD 低 |
| Group 2 | 稳定候选 | 多软件一致,但结构新颖性一般 |
| Group 3 | 探索候选 | 环状新颖,Vina 表现好,但 SP/CDOCKER 支持较弱 |
真正拿去后续实验的,优先选 Group 1。
你可以写成:
本研究以后验测评表现最佳的 Schrödinger SP 结果作为主要筛选依据,结合 CDOCKER 和 Vina 结果进行交叉验证。由于 Vina 仅针对环状新颖骨架子库进行对接,因此其结果主要用于评价结构新颖候选物的结合可靠性。最终优先选择 SP 排名靠前、具有环状新颖骨架、在 CDOCKER 或 Vina 中亦表现较好、且与 SP docking pose RMSD 较低,同时保留 RXRα 关键相互作用的化合物作为候选内源性配体。
一句话就是:
先用 SP 保证筛选可靠性,再用 CDOCKER/Vina 验证一致性,用环状骨架保证新颖性,最后用 RMSD 和相互作用决定谁是真正候选物。
不是,是我所以软件挑出的配体都尽量是环状的,只是SP、MOE、CDOCKER是全库的分子进行了对接,而vina我图方便直接提取了环状的进行对接,期间我做了软件测评,得出SP最好,CDOCKER次之,vina次之,MOE最差
明白了。那你的逻辑应该改成:
所有软件最终都倾向选择环状候选物;SP、MOE、CDOCKER 是全库筛选,Vina 是环状子库筛选;软件测评结果显示 SP 最可靠,CDOCKER 次之,Vina 可辅助,MOE 最弱。
所以你后面要做的是:
因为:
所以 Vina 不能用于证明“全库筛选能力”,只能用于证明:
在环状候选化合物中,Vina 是否支持 SP/CDOCKER 选出的结果。
你可以这样做:
继续用你已有的韦恩图,统计:
但解释时要写清楚:
Vina 对接对象为环状子库,因此其重叠结果主要用于辅助验证环状候选物,而不是与全库对接结果完全等价比较。
以 SP 为主参考。
对同一个化合物,如果它在多个软件里都有 pose,就算:
重点看:
哪些环状候选物在 SP、CDOCKER、Vina 中 pose 相似。
MOE 因为测评最差,只作为补充参考。
看这些环状候选物在不同软件里是否都能:
满足:
这类是最符合你研究目的的候选化合物。
满足:
这类可以作为备选。
满足:
尤其是只有 MOE 支持的化合物不要优先选。
你可以按这个权重排序:
| 指标 | 权重建议 |
|---|---|
| 是否环状/骨架新颖 | 必要条件 |
| SP 结果 | 最高权重 |
| CDOCKER 结果 | 高权重 |
| Vina 结果 | 中等辅助权重 |
| MOE 结果 | 低权重 |
| RMSD 一致性 | 高权重 |
| reference 结合模式 | 高权重 |
| 关键相互作用 | 高权重 |
一句话:
环状是前提,SP 是主依据,CDOCKER 是主要验证,Vina 是环状子库辅助验证,MOE 只作参考。
| 化合物 | 环状 | SP排名 | CDOCKER排名 | Vina排名 | MOE排名 | SP-CDOCKER RMSD | SP-Vina RMSD | 关键相互作用 | 最终等级 |
|---|---|---|---|---|---|---|---|---|---|
| Cmpd_01 | 是 | 高 | 高 | 高 | 一般 | 1.8 | 2.1 | 保留 | A |
| Cmpd_02 | 是 | 高 | 中 | 高 | 差 | 2.4 | 2.6 | 部分保留 | B |
| Cmpd_03 | 是 | 中 | 低 | 高 | 高 | 4.8 | 4.2 | 不稳定 | C/剔除 |
最后选:
你可以直接说:
老师,我准备以后期软件测评中表现最好的 SP 结果作为主筛选依据。因为所有软件最终挑选时都尽量考虑环状骨架,而 Vina 由于计算效率问题只对环状子库进行对接,所以 Vina 结果作为环状候选物的辅助验证。后续我会重点比较 SP、CDOCKER、Vina 和 MOE 对同一批环状候选物预测 pose 的一致性,计算 SP 与其他软件的 RMSD,并结合 reference ligand 的结合模式和关键相互作用,最终优先选择 SP 排名靠前、CDOCKER/Vina 支持、RMSD 较低且结合模式合理的环状化合物作为候选配体。
这就是最符合你老师和师姐意思的做法。