为什么 LLM 仅预测下一词,就能「涌现」出高级能力?
생성일: 2026년 1월 3일
답변에 사용된 모델 GPT-5.2 Thinking by Chat01
생성일: 2026년 1월 3일
답변에 사용된 모델 GPT-5.2 Thinking by Chat01
为什么 LLM 仅预测下一词,就能「涌现」出高级能力?
LLM 看起来“只是在猜下一个词”,但这个训练目标其实在逼它学一件更难的事:学会整段文本(乃至文本背后世界)在各种条件下会如何展开的概率分布。当模型、数据和计算规模上去后,一些能力就会在评测上突然“看起来”冒出来。
下面用几个关键机制把这件事拆开:
自回归训练的目标是最大化 。但把很多步连乘起来就是整段文本的概率:
所以它不是在学“词与词的表面搭配”,而是在学:在给定上下文时,接下来最合理的延续是什么。要做到这点,模型不得不捕捉大量隐含结构:语法、指代、因果、社交语用、常识、领域知识、写作体裁……这些都能直接降低预测损失。规模化后损失随规模呈现相对可预测的下降趋势(经验“缩放律”)。(arXiv)
翻译、摘要、解题、写代码、写邮件……如果把输入写成提示词(prompt),输出写成“接下来该出现的文本”,那几乎所有 NLP/代码任务都变成了“下一个 token”的问题。于是模型在训练时学到的“续写能力”,在推理时就能被提示词“调用”。GPT-3 这类工作系统性展示了:规模变大时,零/小样本提示下的泛化能力会显著提升。(arXiv)
很多能力并不是真的从 0 突然变 1,而是随着规模平滑变好;只是当某个指标是非线性的/有门槛时,你会在图上看到“突然跃迁”。有研究指出,一些“涌现能力”现象可能很大程度来自度量方式的选择(例如取准确率、pass@k、是否达到随机水平之上等),换成更连续的指标后曲线更平滑。(arXiv)
当然,也有人把“涌现”定义为:小模型几乎随机,大模型突然显著好,并强调这种不可由小模型外推预测的现象。(arXiv)
在许多文本里,正确的下一步需要“算一下/推一下/规划一下”(数学步骤、代码逻辑、法律条文适用、链式因果)。如果训练数据里大量存在这种结构,模型为了降低损失,会学到某种可复用的内部算法/表示来完成这些中间计算——外部表现就像“会推理”。
同样,“上下文学习(in-context learning)”也可以被理解为:模型在训练中见过无数“给例子→按规律输出”的文本模式,学会把 prompt 当作一个临时任务描述来适配。(NeurIPS Proceedings)
基础模型学到的是“会续写”;而指令微调/偏好对齐(如让它更愿意解释、按格式输出、拒绝不当请求)会把这些能力变成更稳定的“助手行为”。这不一定创造新能力,但会显著提升你感受到的能力一致性与可控性。
把语言看成对世界与思维过程的“压缩编码”。要把互联网上海量文本压缩到一个模型里并还能预测下一个词,模型必须学到高度抽象、可组合的压缩表示;规模一上去,表示能力跨过某些门槛,你就会在特定评测上看到“突然会了”。
如果你愿意,我也可以用一个具体任务(比如“多步算术”“代码修复”“指代消解”)举例:为什么为了预测下一句,模型不得不做出哪些“中间推理”。