我有一个小分子库，想从里边筛选出RXRα的内源性配体，我将小分子先在薛定谔进行了ligpre,然后分...

创建于：2026年6月25日

问题

我有一个小分子库，想从里边筛选出RXRα的内源性配体，我将小分子先在薛定谔进行了ligpre,然后分别进行了SP，MOE和CDOCKER，后来又进行软件测评测评，发现SP的活性筛选能力很不错，CDOCKER次之，vina也还行，MOE测出的很差，由于vina对接太慢了，而且想筛出的化合物比较新颖，我就从库里提取出符合的化合物进行对接，在各个软件都和reference对比之后，每个软件都挑选出化合物，并且统计了哪些化合物在四个软件都i有，哪些软件在三个软件都有，哪些在两个软件都有，师姐说我接下来就是测这些配体在软件上表现的差异，我应该怎么做但是我老师执意让我做，我现在想知道他想我怎么做，看一下vina，moe,ds与薛定谔有没有一致性，要算RMSD，我之前有统计SP、moe 、CDOCKER的韦恩图，师姐说列出两两软件的RMSD，主要看薛定谔的，后边师姐又说看这些配体在各软件上表现的差异，那我到底应该咋做能符合我老师的意思

思考

你现在卡住的点，其实是“老师要的一致性”到底指什么。我会把它拆成可执行的分析：哪些表要做、RMSD怎么算、最后怎么解释才像是在回应老师的问题。

Thought for 26s

回答

师姐和老师的意思大概率不是让你重新做一个“大筛选”，而是让你证明这些候选配体在不同对接软件里的表现是否一致，尤其是它们和薛定谔 SP 结果是否一致。

你可以把接下来工作理解成一句话：

以薛定谔 SP 为主参考，比较 Vina、MOE、DS/CDOCKER 对同一批候选化合物给出的结合构象、排序和关键相互作用是否一致；其中 RMSD 是最核心的量化指标之一。

你现在应该做的不是只看韦恩图

你之前做的 SP、MOE、CDOCKER 韦恩图，只能说明：

哪些化合物被几个软件共同筛出来。

但它不能说明：

同一个化合物在不同软件里是不是以相似姿势进入 RXRα 结合口袋。

老师说“看 Vina、MOE、DS 与薛定谔有没有一致性，要算 RMSD”，重点应该是构象一致性，也就是 docking pose 是否相似。

所以你后面要补的是：

同一化合物在不同软件中的 docking pose RMSD
同一化合物在不同软件中的打分/排名差异
同一化合物在不同软件中的关键相互作用差异
最后归纳哪些候选物在多个软件中表现稳定

最符合你老师意思的做法

第一步：确定用于比较的化合物集合

建议不要一上来把所有库都算 RMSD，太乱。你可以分层：

主分析集合：

四个软件都筛出来的化合物，或者至少三个软件共同筛出来的化合物。

次要分析集合：

SP 筛出来、并且在 Vina / MOE / CDOCKER 中至少一个也表现不错的化合物。

因为老师说“主要看薛定谔”，所以你可以这样定：

以 SP 筛选得到的候选化合物为主，比较这些化合物在 Vina、MOE、DS/CDOCKER 中的构象是否与 SP 一致。

这样就很贴合老师的意思。

第二步：提取每个软件的最优 docking pose

对每个候选化合物，你要有这几个结构文件：

化合物 ID	SP pose	Vina pose	MOE pose	CDOCKER pose
Cmpd_001	sdf/mae	pdbqt/sdf	mol2/sdf	sdf/mol2
Cmpd_002	sdf/mae	pdbqt/sdf	mol2/sdf	sdf/mol2

注意：
RMSD 必须是同一个化合物在不同软件中的构象比较，不是不同化合物之间算 RMSD。

比如：

Cmpd_001 的 SP pose vs Cmpd_001 的 Vina pose
Cmpd_001 的 SP pose vs Cmpd_001 的 MOE pose
Cmpd_001 的 SP pose vs Cmpd_001 的 CDOCKER pose

这样才有意义。

第三步：以 SP 为参考算 RMSD

你师姐说“列出两两软件的 RMSD，主要看薛定谔”，所以建议你分成两类表。

表 1：以 SP 为参考的 RMSD 表，这是主表

Compound ID	SP-Vina RMSD	SP-MOE RMSD	SP-CDOCKER RMSD	结论
Cmpd_001	1.35 Å	4.80 Å	1.92 Å	Vina/CDOCKER 与 SP 一致，MOE 不一致
Cmpd_002	2.10 Å	3.70 Å	2.45 Å	CDOCKER 较接近，MOE 偏差大
Cmpd_003	0.95 Å	1.88 Å	1.50 Å	多软件构象一致

这个表最能回应老师的话。

一般可以粗略这样解释：

RMSD	解释
< 2.0 Å	构象较一致
2.0–3.0 Å	中等一致
> 3.0 Å	构象差异较大
> 5.0 Å	基本不一致，可能翻转或结合模式不同

表 2：两两软件 RMSD 表，可以作为补充

Compound ID	SP-Vina	SP-MOE	SP-CDOCKER	Vina-MOE	Vina-CDOCKER	MOE-CDOCKER
Cmpd_001	1.35	4.80	1.92	4.50	2.10	4.20
Cmpd_002	2.10	3.70	2.45	3.30	2.20	3.90

这个表可以体现“各软件之间的差异”。

但你的论文或汇报里要突出：

SP 是主要参考，Vina、MOE、CDOCKER 是与 SP 比较的一致性验证工具。

第四步：统计每个软件与 SP 的整体一致性

除了单个化合物的 RMSD，还要做一个总表：

比较对象	平均 RMSD	中位数 RMSD	RMSD < 2 Å 的化合物数	RMSD < 3 Å 的化合物数	结论
SP vs Vina	2.10 Å	1.85 Å	12/20	16/20	与 SP 一致性较好
SP vs CDOCKER	2.45 Å	2.20 Å	9/20	15/20	次之
SP vs MOE	4.30 Å	4.10 Å	3/20	5/20	一致性较差

这个表非常重要。
因为你之前测评发现：

SP 活性筛选能力不错，CDOCKER 次之，Vina 也还行，MOE 很差。

如果 RMSD 结果也显示：

MOE 与 SP pose 差异大，Vina/CDOCKER 与 SP 更接近。

那你的故事就很顺：

MOE 筛选能力差，可能和其预测结合构象与 SP/CDOCKER/Vina 不一致有关。

第五步：不要只算 RMSD，还要看关键相互作用

RMSD 是构象差异，但有时 RMSD 稍高，关键相互作用仍然类似。所以建议再加一个相互作用比较。

比如对 RXRα 的结合口袋，你可以统计每个化合物在各软件中是否保留：

氢键
疏水相互作用
π-π 相互作用
与关键残基的接触
是否和 reference ligand 有相似结合模式

表格可以这样做：

Compound ID	Software	H-bond residues	Hydrophobic residues	与 reference 是否相似	备注
Cmpd_001	SP	Argxxx, Serxxx	Leuxxx, Phexxx	是	pose 稳定
Cmpd_001	Vina	Argxxx	Leuxxx, Phexxx	是	与 SP 接近
Cmpd_001	MOE	无	其他区域	否	pose 偏移
Cmpd_001	CDOCKER	Argxxx, Serxxx	Leuxxx	是	与 SP 接近

这样你就不是单纯说“RMSD 低”，而是能解释为什么这个化合物可靠。

第六步：打分和排名不能直接硬比，要转成排名比较

SP score、Vina score、MOE score、CDOCKER interaction energy 不是同一个量纲，不能直接说：

SP -10 比 MOE -8 好。

更合理的做法是比较排名一致性。

你可以做：

Compound ID	SP rank	Vina rank	MOE rank	CDOCKER rank
Cmpd_001	1	3	18	4
Cmpd_002	2	5	20	6
Cmpd_003	3	2	10	1

然后计算：

SP vs Vina 的 Spearman 相关性
SP vs MOE 的 Spearman 相关性
SP vs CDOCKER 的 Spearman 相关性

如果不会算相关性，至少可以做排名表和散点图。

你最终可能得到类似结论：

Vina 和 CDOCKER 与 SP 的排名趋势较一致，而 MOE 与 SP 的排名和构象一致性均较差。

这就很符合你前面软件测评的结果。

你可以按这个最终汇报逻辑写

建议你给老师汇报时不要说“我不知道该做什么”，而是说：

我准备以薛定谔 SP 结果为主要参考，对共同筛选出的候选化合物进行多软件一致性分析。具体包括：第一，统计各软件筛选结果的重叠情况；第二，提取同一化合物在 SP、Vina、MOE 和 CDOCKER 中的最优 docking pose，计算两两 RMSD，重点比较 Vina/MOE/CDOCKER 与 SP 的 RMSD；第三，比较这些化合物在不同软件中的排名和关键相互作用；最后筛选出在多个软件中构象一致、排名靠前、相互作用模式稳定的候选 RXRα 配体。

这段话基本就是你老师想听的。

最建议你现在做的具体顺序

确定候选化合物名单：优先选四软件共有、三软件共有、SP 高排名且其他软件也不错的化合物。
整理每个化合物在四个软件中的 top pose。
统一结构格式和原子编号，保证同一化合物能正确对应原子。
算 RMSD：主看 SP-Vina、SP-MOE、SP-CDOCKER。
做 RMSD 总表和统计图：平均值、中位数、RMSD < 2 Å 的比例。
挑代表性化合物画结合模式图：一个多软件一致的，一个 MOE 偏差大的。
结合打分排名和相互作用写结论。

你这件事的核心结论可以这样设计

最后你要回答的问题不是“哪个软件最好”，而是：

哪些候选化合物在多个软件中表现稳定，是否值得作为潜在 RXRα 内源性配体进一步实验验证。

比较理想的结论形式是：

综合多软件筛选、RMSD 构象一致性、排名趋势和关键相互作用分析，筛选出若干候选配体。其中部分化合物在 SP、Vina 和 CDOCKER 中均表现出较低 RMSD 和相似结合模式，说明其 docking 结果较稳定；而 MOE 预测构象与 SP 差异较大，与前期软件测评结果一致，因此 MOE 结果仅作为辅助参考。

一句话总结：
你接下来就以 SP 为主，把 Vina、MOE、CDOCKER 和 SP 对同一批候选化合物的 pose RMSD、排名和相互作用列出来，证明哪些化合物跨软件表现稳定，哪些软件结果不一致。

问题

那我后边又怎么选出候选化合物呢

回答

后边选候选化合物，建议不要只按“几个软件共有”选，而是做一个分级筛选规则。

你可以这样定：

第一优先级：强候选化合物

满足这些条件：

SP 排名靠前
至少被 Vina 或 CDOCKER 同时筛出
SP 与其他软件 pose RMSD < 2–3 Å
与 reference ligand 结合模式相似
保留 RXRα 关键残基相互作用
结构相对新颖，不是已知 RXRα 配体类似物

这类就是你最终重点推荐的候选配体。

第二优先级：备选候选化合物

满足：

SP 排名靠前
在 Vina/CDOCKER 中有一个表现还可以
RMSD 在 2–4 Å
关键相互作用部分保留

这类可以作为补充验证对象。

第三优先级：剔除或低优先级

建议剔除：

只在 MOE 里表现好，但 SP/Vina/CDOCKER 不支持的
SP 分数高但 pose 很奇怪的
RMSD > 4–5 Å，说明各软件构象不一致
不在 RXRα 活性口袋合理位置的
与 reference 完全不同结合模式、且无法解释的
PAINS、反应性强、结构明显不稳定的化合物

指标	给分
SP 排名前 10%	2 分
CDOCKER 也入选	1 分
Vina 也入选	1 分
MOE 也入选	0.5 分
SP-其他软件 RMSD < 2 Å	2 分
RMSD 2–3 Å	1 分
与 reference 结合模式相似	2 分
保留关键相互作用	2 分
结构新颖	1–2 分

最简单可执行的筛选规则

你可以直接这样跟老师说：

我后续拟以 SP 结果为主，优先选择 SP 排名靠前、同时在 Vina 或 CDOCKER 中也表现较好、且与 SP docking pose 的 RMSD 小于 2–3 Å 的化合物。进一步结合 reference ligand 的结合模式、关键残基相互作用和结构新颖性，最终确定候选 RXRα 内源性配体。

最终候选建议分三组

分组	选择标准	用途
A 组	SP、Vina、CDOCKER 均支持，RMSD 低	最重点实验验证
B 组	SP 强，CDOCKER 或 Vina 支持，RMSD 中等	备选验证
C 组	结构新颖，但软件一致性一般	探索性验证

你最终不要只选“四个软件都有”的。
因为 MOE 之前测评很差，所以MOE 不应该作为强制条件。

核心原则是：

SP 为主，CDOCKER/Vina 辅助验证，MOE 仅作参考；最终选跨软件构象稳定、结合模式合理、结构新颖的化合物。

问题

可是我vina是库里提取出了环状的化合物，因为想要骨架新颖一点，不想要链状的，进行了对接，结合我前面给你的信息，我接下来应该怎么做可以符合我老师及师姐的想法，以及我怎么挑选化合物

思考

Thought for a couple of seconds

回答

你的 Vina 不是全库筛选，而是从库里先提取“环状/骨架新颖”的化合物再对接。所以后面不要把 Vina 当作和 SP、MOE、CDOCKER 完全平行的筛选软件，而要把它定位成：

Vina 是结构新颖性导向的补充验证工具。

这样最符合你前面的逻辑，也不会和老师、师姐的要求冲突。

你接下来可以这样做

1. 先明确候选化合物池

建议你把候选池分成两部分：

A 类：多软件共同支持的化合物

来自 SP、CDOCKER、MOE 的交集或高排名重叠。

B 类：环状新颖骨架化合物

也就是你从库里提取出来跑 Vina 的那批。

然后重点看：

B 类环状化合物里，哪些也被 SP 或 CDOCKER 支持。

2. 以 SP 为主参考，做一致性分析

对每个候选化合物，算：

化合物	SP score/rank	CDOCKER score/rank	MOE score/rank	Vina score/rank	SP-Vina RMSD	SP-CDOCKER RMSD	SP-MOE RMSD	结论

注意：

Vina 只对环状化合物有结果，所以 Vina 列可以只填环状子库中的化合物。

不要强行要求每个化合物都有 Vina 结果。

3. 你的筛选逻辑应该改成这样

第一优先级：最推荐候选物

满足：

环状骨架 / 结构新颖
SP 排名靠前
CDOCKER 或 Vina 也支持
SP-Vina 或 SP-CDOCKER RMSD < 2–3 Å
与 reference ligand 结合模式相似
保留 RXRα 关键相互作用

这类最符合你的目标：
既新颖，又有多软件支持。

第二优先级：稳定但新颖性一般

满足：

SP、CDOCKER、MOE 中多个软件共同筛出
RMSD 较低
结合模式合理
但结构不是特别新颖，可能偏链状或类似已知配体

这类可以作为阳性对照式候选，不一定是最创新的。

第三优先级：新颖但证据弱

满足：

环状骨架
Vina 分数不错
但 SP 排名一般，或 SP-Vina RMSD 较大

这类可以保留为探索性候选，但不要放在主结论最前面。

4. 最关键：不要让 Vina 决定最终结果

因为你前面说：

SP 筛选能力最好
CDOCKER 次之
Vina 还行但慢
MOE 很差

所以最终权重应该是：

SP > CDOCKER ≈ Vina > MOE

MOE 只作为参考，不要因为某个化合物 MOE 好就优先选。

5. 你可以这样挑最终化合物

建议最终分 3 组报给老师：

组别	化合物类型	选择标准
Group 1	核心候选	环状新颖 + SP 高排名 + CDOCKER/Vina 支持 + RMSD 低
Group 2	稳定候选	多软件一致，但结构新颖性一般
Group 3	探索候选	环状新颖，Vina 表现好，但 SP/CDOCKER 支持较弱

真正拿去后续实验的，优先选 Group 1。

你可以直接按这个流程做

从 SP 结果里取前 5% 或前 10%。
和 CDOCKER 高排名结果取交集。
再标记哪些是环状/新颖骨架。
对这些化合物查 Vina 结果。
计算 SP-Vina、SP-CDOCKER、SP-MOE RMSD。
剔除 RMSD 很高、pose 翻转、结合位点异常的。
保留和 reference ligand 结合模式相似、关键相互作用合理的。
最终按“新颖性 + SP 排名 + RMSD + 相互作用”综合排序。

最推荐你的最终筛选标准

你可以写成：

本研究以后验测评表现最佳的 Schrödinger SP 结果作为主要筛选依据，结合 CDOCKER 和 Vina 结果进行交叉验证。由于 Vina 仅针对环状新颖骨架子库进行对接，因此其结果主要用于评价结构新颖候选物的结合可靠性。最终优先选择 SP 排名靠前、具有环状新颖骨架、在 CDOCKER 或 Vina 中亦表现较好、且与 SP docking pose RMSD 较低，同时保留 RXRα 关键相互作用的化合物作为候选内源性配体。

一句话就是：

先用 SP 保证筛选可靠性，再用 CDOCKER/Vina 验证一致性，用环状骨架保证新颖性，最后用 RMSD 和相互作用决定谁是真正候选物。

问题

不是，是我所以软件挑出的配体都尽量是环状的，只是SP、MOE、CDOCKER是全库的分子进行了对接，而vina我图方便直接提取了环状的进行对接，期间我做了软件测评，得出SP最好，CDOCKER次之，vina次之，MOE最差

回答

明白了。那你的逻辑应该改成：

所有软件最终都倾向选择环状候选物；SP、MOE、CDOCKER 是全库筛选，Vina 是环状子库筛选；软件测评结果显示 SP 最可靠，CDOCKER 次之，Vina 可辅助，MOE 最弱。

所以你后面要做的是：

1. 先不要把 Vina 和前三个软件完全等同

因为：

SP / MOE / CDOCKER：全库对接
Vina：只对环状子库对接

所以 Vina 不能用于证明“全库筛选能力”，只能用于证明：

在环状候选化合物中，Vina 是否支持 SP/CDOCKER 选出的结果。

2. 最符合老师和师姐意思的分析框架

你可以这样做：

第一层：筛选结果重叠

继续用你已有的韦恩图，统计：

SP、MOE、CDOCKER 全库筛选出的环状候选物重叠
Vina 环状子库中与 SP/CDOCKER/MOE 结果的重叠

但解释时要写清楚：

Vina 对接对象为环状子库，因此其重叠结果主要用于辅助验证环状候选物，而不是与全库对接结果完全等价比较。

第二层：构象一致性，也就是 RMSD

以 SP 为主参考。

对同一个化合物，如果它在多个软件里都有 pose，就算：

SP vs CDOCKER RMSD
SP vs Vina RMSD
SP vs MOE RMSD
必要时补充 CDOCKER vs Vina RMSD

重点看：

哪些环状候选物在 SP、CDOCKER、Vina 中 pose 相似。

MOE 因为测评最差，只作为补充参考。

第三层：相互作用一致性

看这些环状候选物在不同软件里是否都能：

进入 RXRα 同一结合口袋
和 reference ligand 结合模式相似
保留关键疏水作用/氢键/π作用
没有明显异常 pose

3. 你最终挑化合物的优先级

第一优先级：最值得选

满足：

环状骨架
SP 全库排名靠前
CDOCKER 也排名靠前或被筛出
Vina 在环状子库中也表现较好
SP-CDOCKER 或 SP-Vina RMSD < 2–3 Å
结合模式接近 reference
关键相互作用合理

这类是最符合你研究目的的候选化合物。

第二优先级：可以保留

满足：

环状骨架
SP 排名靠前
CDOCKER 或 Vina 其中一个支持
RMSD 不算太差，比如 2–4 Å
结合模式能解释

这类可以作为备选。

第三优先级：谨慎选择

满足：

只有 Vina 好，但 SP/CDOCKER 不好
只有 MOE 好，但 SP/CDOCKER/Vina 不支持
SP 好，但其他软件 pose 完全不一致
RMSD > 4–5 Å
pose 偏出口袋或方向明显异常

尤其是只有 MOE 支持的化合物不要优先选。

4. 最终推荐的筛选权重

你可以按这个权重排序：

指标	权重建议
是否环状/骨架新颖	必要条件
SP 结果	最高权重
CDOCKER 结果	高权重
Vina 结果	中等辅助权重
MOE 结果	低权重
RMSD 一致性	高权重
reference 结合模式	高权重
关键相互作用	高权重

一句话：

环状是前提，SP 是主依据，CDOCKER 是主要验证，Vina 是环状子库辅助验证，MOE 只作参考。

5. 你可以做一个最终打分表

化合物	环状	SP排名	CDOCKER排名	Vina排名	MOE排名	SP-CDOCKER RMSD	SP-Vina RMSD	关键相互作用	最终等级
Cmpd_01	是	高	高	高	一般	1.8	2.1	保留	A
Cmpd_02	是	高	中	高	差	2.4	2.6	部分保留	B
Cmpd_03	是	中	低	高	高	4.8	4.2	不稳定	C/剔除

最后选：

A 级：重点候选
B 级：备选候选
C 级：不优先或剔除

6. 你可以这样跟老师解释

你可以直接说：

老师，我准备以后期软件测评中表现最好的 SP 结果作为主筛选依据。因为所有软件最终挑选时都尽量考虑环状骨架，而 Vina 由于计算效率问题只对环状子库进行对接，所以 Vina 结果作为环状候选物的辅助验证。后续我会重点比较 SP、CDOCKER、Vina 和 MOE 对同一批环状候选物预测 pose 的一致性，计算 SP 与其他软件的 RMSD，并结合 reference ligand 的结合模式和关键相互作用，最终优先选择 SP 排名靠前、CDOCKER/Vina 支持、RMSD 较低且结合模式合理的环状化合物作为候选配体。

这就是最符合你老师和师姐意思的做法。

问题

思考

回答