为什么 LLM 仅预测下一词，就能「涌现」出高级能力？

LLM 看起来“只是在猜下一个词”，但这个训练目标其实在逼它学一件更难的事：学会整段文本（乃至文本背后世界）在各种条件下会如何展开的概率分布。当模型、数据和计算规模上去后，一些能力就会在评测上突然“看起来”冒出来。

下面用几个关键机制把这件事拆开：

1) “预测下一词” ≈ 学整个语言/世界的生成规律

自回归训练的目标是最大化 $P(\text{token}_t \mid \text{token}_{<t})$ 。但把很多步连乘起来就是整段文本的概率：

P(x_{1:T})=\prod_{t=1}^T P(x_t \mid x_{<t})

所以它不是在学“词与词的表面搭配”，而是在学：在给定上下文时，接下来最合理的延续是什么。要做到这点，模型不得不捕捉大量隐含结构：语法、指代、因果、社交语用、常识、领域知识、写作体裁……这些都能直接降低预测损失。规模化后损失随规模呈现相对可预测的下降趋势（经验“缩放律”）。(arXiv)

2) 很多“任务”都能被改写成“继续写下去”

翻译、摘要、解题、写代码、写邮件……如果把输入写成提示词（prompt），输出写成“接下来该出现的文本”，那几乎所有 NLP/代码任务都变成了“下一个 token”的问题。于是模型在训练时学到的“续写能力”，在推理时就能被提示词“调用”。GPT-3 这类工作系统性展示了：规模变大时，零/小样本提示下的泛化能力会显著提升。(arXiv)

3) “涌现”往往来自两个叠加：能力变强 + 评测阈值效应

很多能力并不是真的从 0 突然变 1，而是随着规模平滑变好；只是当某个指标是非线性的/有门槛时，你会在图上看到“突然跃迁”。有研究指出，一些“涌现能力”现象可能很大程度来自度量方式的选择（例如取准确率、pass@k、是否达到随机水平之上等），换成更连续的指标后曲线更平滑。(arXiv)
当然，也有人把“涌现”定义为：小模型几乎随机，大模型突然显著好，并强调这种不可由小模型外推预测的现象。(arXiv)

4) 为什么会出现“看似推理”的行为：为了预测得更准，模型学会了内部计算

在许多文本里，正确的下一步需要“算一下/推一下/规划一下”（数学步骤、代码逻辑、法律条文适用、链式因果）。如果训练数据里大量存在这种结构，模型为了降低损失，会学到某种可复用的内部算法/表示来完成这些中间计算——外部表现就像“会推理”。
同样，“上下文学习（in-context learning）”也可以被理解为：模型在训练中见过无数“给例子→按规律输出”的文本模式，学会把 prompt 当作一个临时任务描述来适配。(NeurIPS Proceedings)

5) 别忽略：后训练让这些能力更“可用”

基础模型学到的是“会续写”；而指令微调/偏好对齐（如让它更愿意解释、按格式输出、拒绝不当请求）会把这些能力变成更稳定的“助手行为”。这不一定创造新能力，但会显著提升你感受到的能力一致性与可控性。

一个直观类比

把语言看成对世界与思维过程的“压缩编码”。要把互联网上海量文本压缩到一个模型里并还能预测下一个词，模型必须学到高度抽象、可组合的压缩表示；规模一上去，表示能力跨过某些门槛，你就会在特定评测上看到“突然会了”。

如果你愿意，我也可以用一个具体任务（比如“多步算术”“代码修复”“指代消解”）举例：为什么为了预测下一句，模型不得不做出哪些“中间推理”。