Why We Think? - Freezing

本文是 Lilian Weng 最近写的一篇博客，对她的许多观点表示赞同，也受到了很多启发。
原文链接：https://lilianweng.github.io/posts/2025-05-01-thinking/

目录#

赋予动机
- 与心理学的类比
- 计算即资源
- 潜在变量建模
基于 Token 的思考
- 分支与编辑
  - 并行采样
  - 顺序修订
- 强化学习以改善推理
- 外部工具使用
- 忠实思考
  - 模型是否忠实表达其想法
  - 优化压力对 CoT 的影响：好还是坏？
连续空间中的思考
- 循环架构
- Thinking Tokens
作为潜在变量的思考
- 期望最大化
- 迭代学习
思考时间的扩展法则
未来展望
引文
参考文献

赋予动机#

我们可以通过几种不同的方式激励模型思考更长时间。

与心理学的类比#

模型思考的核心思想与人类的思维方式密切相关。我们人类不能立即提供 "What's 12345 times 56789?" 的答案。相反，在得出结果之前花时间思考和分析是很自然的，尤其是对于复杂的问题。在《思考，快与慢》（Kahneman，2013 年）中，丹尼尔・卡尼曼（Daniel Kahneman）通过双重过程理论的视角将人类思维分为两种模式：

快速思考（系统 1）在直觉和情感的驱动下快速自动运行，几乎不需要任何努力。
慢速思考（系统 2）需要深思熟虑的逻辑思维和大量的认知努力。这种思维模式消耗更多的精神能量，需要有意识的参与。

因为系统 1 的思维既快速又简单，所以它往往最终成为主要的决策驱动因素，而牺牲了准确性和逻辑性。它依赖于我们大脑的心理捷径（即启发式），并可能导致错误和偏见。通过有意识地放慢脚步，花更多的时间来反思、改进和分析，我们可以参与系统 2 的思考，挑战我们的直觉并做出更理性的选择。

计算即资源#

深度学习的一种观点是，神经网络可以通过它们在正向传递中可以访问的计算（如矩阵乘法、激活函数的计算）
和存储量（如模型权重和偏置、中间激活值）来表征，如果我们优化它们以解决使用梯度下降的问题，优化过程将弄清楚如何使用这些资源 —— 他们将弄清楚如何将这些资源组织成用于计算和信息存储的电路。从这个角度来看，如果我们设计一个可以在测试时进行更多计算的架构或系统，并训练它有效地利用这些资源，它会工作得更好。

在 Transformer 模型中，模型对每个生成的 token 所做的计算量（flops）大约是参数数量的 2 倍，因为前向传播和反向传播都要用到参数。对于像 mix of experts （MoE）这样的稀疏模型，每次正向传递中只使用一小部分参数，因此计算 = 2 * parameters /sparsity，其中 sparsity 是活跃的 experts 的比例。

另一方面，CoT 使模型能够为它试图计算的答案的每个 token 执行更多的 flops 计算。事实上，CoT 有一个很好的特性，它允许模型根据问题的难易程度调整计算量。

潜在变量建模 (Latent Variable Modeling)#

机器学习中的一个经典想法是定义一个具有潜在（隐藏）变量 $z$ 和可见变量 $y$ 的概率模型，其中 $y$ 被赋予我们的学习算法。对潜在变量的可能值进行边际化（求和）使我们能够在可见变量上表达丰富的分布。 $P(y) = \sum_{z \sim P(z)} P(y | z)$
例如，我们可以通过让 $x$ 表示问题的 statement，让 $y$ 表示 ground truth answer or proof，以及 $z$ 作为导致证明的自由形式的思维过程来模拟数字问题和解决方案的分布。要优化的边际概率分布为：
$P(y | x) = \sum_{z \sim p(z|x)} P(y | x, z)$

基于 Token 的思考#

Ling 等人在 2017 年探索了在生成简短答案之前生成中间步骤的策略，特别是对于数学问题，他们引入了 AQUA-RAT 数据集，然后由 Cobbe 等人在 2021 年进行了扩展，他们引入了小学数学（GSM）数据集。Cobbe 等人在人工编写的解决方案和验证器上训练一个具有监督学习功能的生成器，以预测候选解决方案的正确性；然后他们可以搜索这些解决方案。Nye 等人（2021 年）尝试将中间思维代币作为 “便签簿”，Wei 等人（2022 年）创造了现在的标准术语思维链（CoT）。

改进 CoT 推理的早期工作涉及对人类编写的推理轨迹或过滤答案正确性的模型编写的轨迹进行监督学习，其中后者可以被视为强化学习（RL）的基本形式。其他一些工作发现，通过适当 "think step by step" 提示（Kojima 等人，2022 年）或更复杂的提示来鼓励模型首先反思相关知识（Yasunaga 等人，2023 年），可以显著提高指令调整模型的数学性能。

后来的工作发现，通过使用可自动检查的解决方案对问题数据集进行强化学习，可以显着提高 CoT 推理能力，例如带有简短答案的 STEM 问题，或可以通过单元测试检查的编码任务（Zelikman 等人，2022 年，Wang 等人，2023 年，Liu 等人，2023 年）。随着 o1-preview、o3 和 R1 技术报告（DeepSeek-AI，2025 年）的发布，这种方法越来越受到关注，该报告表明，策略梯度算法可以带来强大的性能。

分支与编辑#

测试时计算的基本目的是在测试时自适应地修改模型的输出分布。有多种方法可以利用测试时间资源进行解码，以选择更好的样本，从而将模型的预测更改为更理想的分布。改进解码过程的两种主要方法是并行采样和顺序修订。

-并行采样同时生成多个输出，同时通过过程奖励信号为每一步提供指导，或使用验证器在结束时判断质量。它是提高测试时间性能的最广泛采用的解码方法，例如最佳 N 或波束搜索。当基本事实不可用时，自洽性（Wang 等人，2023 年）通常用于在多个 CoT 推出中以多数票选择答案。
-顺序修订 根据上一步中的输出迭代调整模型的响应，要求模型有意反映其现有响应并更正错误。修订过程可能必须依赖于微调的模型，因为天真地依赖模型内在的自我纠正能力而没有外部反馈可能不会带来改进（Kamoi 等人，2024 年，Huang 等人，2024 年）。

并行采样简单、直观且更易于实现，但受限于模型能力，即它是否能一次性实现正确的解决方案。Sequential 明确要求模型反思错误，但它速度较慢，并且在实现过程中需要格外小心，因为它确实存在正确预测被修改为错误或引入其他类型的幻觉的风险。这两种方法可以一起使用。Snell et al. （2024）表明，简单的问题受益于纯粹的顺序测试时间计算，而更难的问题通常在顺序与并行计算的最佳比例下表现最好。

并行采样#

给定一个生成模型和一个评分函数，我们可以使用它来对全部或部分样本进行评分，我们可以使用各种搜索算法来查找高分样本。Best-of- N
是最简单的此类算法：只需收集 N
独立样本，然后根据某个评分函数选择排名最高的样本。Beam 搜索是一种更复杂的搜索算法，它使搜索过程更具适应性，在解空间更有前途的部分花费更多的采样计算。

Beam 搜索维护一组有希望的部分序列，并在扩展它们和修剪不太有希望的部分序列之间交替。作为选择机制，我们可以使用流程奖励模型（PRM;Lightman et al. 2023）来指导光束搜索候选者的选择。Xie et al. （2023）使用 LLM 来评估其自己生成的推理步骤正确的可能性，将其格式化为多项选择题，发现每步自我评估减少了波束搜索解码过程中多步推理中的累积错误。此外，在采样过程中，温度退火有助于减少聚合随机性。Xie 等人的这些实验在 Codex 模型的少发 GSM8k、AQuA 和 StrategyQA 基准测试中实现了 5-6% 的改进。奖励平衡搜索（“REBASE” 的缩写；Wu et al. 2025）分别训练了一个过程奖励模型（PRM），以确定在光束搜索过程中，根据 softmax 归一化奖励分数，每个节点在每个深度上应该扩展多少。江 et al. （2024）训练了他们的 PRM，命名为 “RATIONALYST”，用于以大量未标记数据为条件的合成基本原理的光束搜索指导。在比较上下文中包含基本原理与不包含基本原理的时间之间的差异时，根据它们是否有助于将真实答案标记的负对数概率降低阈值来筛选好的基本原理。在推理时，RATIONALYST 通过帮助估计下一个推理步骤的对数概率（“隐式”）或直接生成下一个推理步骤作为提示的一部分（“显式”）来为 CoT 生成器提供过程监督。

有趣的是，在没有明确的零镜头或少数镜头提示的情况下，可以触发紧急的思维链推理路径。Wang & 周（2024）发现，如果我们在第一个采样标记上通过保留置信度最高的顶级
标记（以采样期间前 1 名和前 2 名候选人之间的差异来衡量）在第一个采样标记处进行分支，然后继续这些
采样试验进行贪婪解码，其中许多序列本身包含 CoT。特别是当 CoT 确实出现在上下文中时，它会导致对最终答案的更自信的解码。要计算最终答案的置信度，需要通过特定于任务的启发式方法（例如数学问题的最后一个数值）或通过进一步提示模型来识别答案跨度 "So the answer is" 。仅在第一个标记处分支的设计选择是基于以下观察：早期分支显着增强了潜在路径的多样性，而后期标记受先前序列的很大影响。

顺序修订#

如果模型能够反映和纠正过去回答中的错误，我们就会期望该模型产生一个很好的迭代修订序列，质量不断提高。然而，由于各种失败模式，这种自我纠正能力在 LLM 中本质上并不存在，也不容易开箱即用，例如：（1）幻觉，包括将正确的回答修改为不正确；（2）行为崩溃为未纠正的行为；例如，对第一个不正确的回答进行微小的修改或没有修改；或（3）在测试时未能推广到分布变化。Huang 等人（2024 年）的实验表明，天真地应用自我纠正会导致性能变差，模型需要外部反馈来自我改进，这可以基于匹配的基本事实、启发式和任务特定的指标、编码问题的单元测试结果（Shinn 等人，2023 年）、更强的模型（Zhang 等人，2024 年）以及人类反馈（Liu 等人，2023 年）。

自我纠正学习（Welleck 等人，2023 年）旨在训练给定固定生成器模型的校正器模型 $P_θ(y | y_0, x)$ 对 $P_0 (y_0 | x)$。虽然生成器模型仍然是通用的，但校正器模型可以是特定于任务的，并且仅根据初始模型响应和附加反馈（例如句子、编译器限制、单元测试结果，可以是可选的）进行生成：

自我纠正学习首先生成，首先在数据池中为每个提示生成多个输出；
然后，如果一个输出的值高于另一个，则通过将同一提示的两个输出配对在一起来创建价值提升对 (prompt $x$，hypothesis $y$，correction $y'$)。
这些对与值 $v (y') - v (y)$ 的改进，和两个输出之间的相似性成比例选择，$\text {Similarity}(y, y')$ 以训练校正器模型。
为了鼓励探索，校正器还为数据池提供了新一代。在推理时，可以迭代使用 corrector 来创建顺序修正的校正轨迹。

递归检查（ Qu et al. 2024）也旨在训练一个更好的校正器模型，但使用单个模型同时进行生成和自我校正。

SCoRe（通过强化学习进行自我纠正；Kumar et al. 2024）是一种多轮 RL 方法，通过在第二次尝试时产生比第一次尝试时创建的答案更好的答案来鼓励模型进行自我纠正。它包含两个训练阶段：阶段 1 仅最大限度地提高第二次尝试的准确性，同时仅在第一次尝试时强制执行 KL 惩罚，以避免第一轮响应与基本模型行为发生过多的偏移；阶段 2 优化了第一次和第二次尝试生成的答案的准确性。理想情况下，我们确实希望看到第一次和第二次尝试的性能都更好，但添加阶段 1 可以防止模型对第一次响应进行少量编辑或无编辑的行为崩溃，而阶段 2 进一步改善结果。

强化学习以改善推理#

最近，通过使用具有基本真实答案的问题集合（通常是 STEM 问题和具有易于验证答案的谜题）来提高语言模型的推理能力，并奖励模型获得正确答案，从而在提高语言模型的推理能力方面取得了很大成功。OpenAI 的 o -series 模型的强劲性能以及 DeepSeek 随后发布的模型和技术报告推动了这一领域的近期活动。

DeepSeek-R1 （ DeepSeek-AI， 2025）是一个开源的 LLM 旨在擅长需要高级推理技能的任务，如数学、编码和逻辑问题解决。他们进行了 2 轮 SFT-RL 训练，使 R1 能够擅长推理和非推理任务。

冷启动 SFT 是在数千个冷启动数据的集合上微调 DeepSeek-V3-Base 基本模型。如果没有此步骤，模型将存在可读性差和语言混合的问题。
面向推理的 RL 使用两种类型的基于规则的奖励在仅推理提示上训练推理模型：

格式奖励：模型应通过 ... token 包装 CoT。
准确率奖励：最终答案是否正确。数学问题的答案需要以特定格式存在（例如，在盒子中）才能得到可靠的验证。对于编码问题，编译器用于评估测试用例是否通过。

拒绝抽样 + 非推理 SFT 利用第 2 步 RL 检查点上的拒绝抽样创建的新 SFT 数据，并结合来自 DeepSeek-V3 写作、事实 QA 和自我认知等领域的非推理监督数据，进行重新训练 DeepSeek-V3-Base 。

过滤掉具有混合语言、长段落和代码块的 CoT。
使用 DeepSeek-V3 （ DeepSeek-AI， 2024）管道包括非推理任务。
对于某些非推理任务，在通过提示回答问题之前，调用 DeepSeek-V3 生成潜在的 CoT。但对于像 “hello” 这样更简单的查询，不需要 CoT。
然后，在总共 800k 个样本上微调 DeepSeek-V3-Base，持续 2 个 epoch。

最后的 RL 阶段在推理和非推理提示上训练第 3 步检查点，提高有用性、无害性和推理性。

有趣的是，DeepSeek 团队表明，使用纯 RL，没有 SFT 阶段，仍然可以学习高级推理能力，如反射和回溯（“顿悟时刻”）。该模型自然而然地学会了在 RL 训练过程中花费更多的思考代币来解决推理任务。可能会出现 “顿悟时刻”，指的是模型反思以前的错误，然后尝试其他方法来纠正它们。后来，发生了各种开源工作来复制 R1 结果，例如 Open-R1、SimpleRL-reason 和 TinyZero，所有这些都基于 Qwen 模型。这些努力还证实，纯 RL 会导致数学问题上的出色表现，以及出现的 “顿悟时刻”。

DeepSeek 团队还分享了他们一些不成功的尝试。他们没有使用流程奖励模型（PRM），因为很难定义每个步骤的评分量规或确定中间步骤是否正确，同时使训练更容易受到奖励黑客攻击。MCTS（蒙特卡洛树搜索）的努力也失败了，因为与国际象棋相比，语言模型标记的搜索空间很大；训练用于指导搜索的细粒度价值模型也非常具有挑战性。失败的尝试通常会提供独特的见解，我们想鼓励研究界更多地分享没有成功的事情。

外部工具使用#

在推理步骤中，可以通过执行代码或运行数学计算来可靠、准确地解决某些中间步骤。将这部分推理组件卸载到外部代码解释器中，就像在 PAL（程序辅助语言模型；Gao et al. 2022）或 Chain of Code （ Li et al. 2023）可以使用外部工具扩展 LLM 的能力，无需 LLM 学习执行代码或本身作为计算器的功能。这些代码仿真器，就像在代码链中一样，可以通过 LLM 进行扩充，这样，如果标准代码解释器失败，我们可以选择使用 LLM 来执行该代码行。使用代码来增强推理步骤对于数学问题、符号推理和算法任务特别有益。这些单元测试可能不作为编码问题的一部分存在，在这些情况下，我们可以指示模型自行生成单元测试，以便对其进行测试以验证解决方案（Shinn 等人，2023 年）。

反应（Reason+Act;Yao et al. 2023）将搜索维基百科 API 的作与推理轨迹的生成相结合，使得推理路径可以融入外部知识。

OpenAI 最近发布的 o3 和 o4-mini 是另外两个很好的例子，其中推理过程涉及到像网络搜索、代码执行和图像处理这样的工具使用。该团队观察到，大规模强化学习表现出与 GPT 范式相同的趋势，即 “更多的计算 = 更好的性能”。

忠实思考#

深度学习模型通常被视为黑匣子，并且已经提出了各种可解释性方法。可解释性很有用，原因有几个：首先，它为我们提供了一个额外的测试，以确定模型是否与其创建者的意图不一致，或者它是否以某种我们无法通过监控其作来判断的方式出现错误。其次，它可以帮助我们确定模型是否使用合理的过程来计算其答案。思维链提供了一种特别方便的可解释性形式，因为它使模型的内部过程在自然语言中可见。然而，这种可解释性建立在模型如实描述其内部思维过程的假设之上。

最近的研究表明，监控推理模型的 CoT 可以有效地检测模型错误行为，例如奖励黑客攻击，甚至可以使较弱的模型能够监控较强的模型（Baker 等人，2025 年）。增加测试时间计算也可以提高对抗鲁棒性（Zaremba 等人，2025 年）; 这在直觉上是有道理的，因为当模型出现不寻常的输入（例如对抗性示例或越狱尝试）时，思考时间应该特别有用 —— 它可以利用额外的思考时间来理解它所面临的奇怪情况。

模型是否忠实表达其想法#

直观地说，由于缺乏旨在鼓励忠实推理的明确训练目标，模型 CoT 可能会有偏差。或者，当我们根据人工编写的解释微调模型时，这些人工编写的样本可能包含错误。因此，我们不能默认假设 CoT 总是忠实的。

Lanham 等人（2023 年）通过故意将错误引入 CoT 并衡量它们对一组多项选择任务（例如 AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag）准确性的影响，研究了 CoT 忠实度失败的几种模式：

错误 1（早期回答）：模型可能会在 CoT 生成之前过早地形成结论。这是通过早期截断或插入 CoT 中的错误来测试的。不同的任务揭示了不同的任务对 CoT 有效性的不同依赖性；有些对截断的 CoT 敏感，但有些则不敏感。Wang et al. （2023）做了类似的实验，但在 CoT 的形成中，存在与桥接对象或语言模板相关的更微妙的错误。
错误 2（无信息令牌）：无信息量的 CoT 令牌可以提高性能。这个假设是通过用填充文本替换 CoT 来检验的（例如，所有句点），与没有 CoT 相比，这种设置显示准确性没有提高，并且某些任务的性能可能会略有下降。
错误 3（人类不可读的编码）：相关信息的编码方式对人类难以理解。以非标准方式解释 CoT 并不会降低跨数据集的性能，这表明准确性的提高并不依赖于人类可读的推理。

有趣的是，Lanham 等人认为，对于多项选择题，较小的模型可能无法很好地利用 CoT，而较大的模型可能已经能够在没有 CoT 的情况下解决任务。这种对 CoT 推理的依赖性，以使用 CoT 与不使用 CoT 获得相同答案的百分比来衡量，并不总是随着多项选择题的模型大小而增加，但确实会随着附加任务的模型大小而增加，这意味着思考时间对于复杂的推理任务更为重要。

测试 CoT 忠诚度的替代方法包括干扰提示，而不是直接修改 CoT 路径（Turpin 等人. 2023， Chua & Evans， 2025， Chen et al. 2025）。

一种方法在少数样本中始终将正确答案标记为 “（A）”，而不管真正的标签如何，以引入偏差。

另一种提示技术在提示中插入误导性提示，例如 "I think the answer is <random_label> but curious to hear what you think". 或 "A Stanford Professor thinks the answer is <random_label>" 。通过将同一问题的模型预测与没有误导性提示的 vs 进行比较，我们可以衡量模型是否能够忠实地描述提示对其答案的影响。特别是，在模型产生不同提示和非提示答案的情况下，我们测量模型在用提示解决问题时是否承认提示。如果模型是忠实的，它应该明确承认影响并承认其答案的更改是由于提示。

多项研究发现，推理模型比所有测试的非推理模型更可靠地描述暗示的影响。例如，我们可以测量模型将提示视为决定因素（“忠实的 CoT”）的样本比例。推理模型（Claude 3.7 Sonnet、DeepSeek R1）总体上比非推理模型（Claude 3.6、DeepSeek V3）表现得更好。

一些证据表明，使用奖励模型会导致模型输出的忠实度降低。在本测试中，经典 RLHF 中的奖励模型没有经过训练来激励忠实的行为，因为偏好比较数据集是由人类选择看起来更好或更令人愉悦的模型来收集的。然而，在推理模型中，CoT 路径经过优化以产生正确的最终答案，而不是匹配 RM 中定义的人类偏好，因此直观地预期会更加忠实。

优化压力对 CoT 的影响：好还是坏？#

监控奖励黑客行为的推理模型的 CoT 是有效的。使用此监控器的一种简单方法是在测试时将监控器作为过滤器运行拒绝采样，并在没有奖励黑客的情况下识别解决方案。然而，它仅在 RL 的早期阶段有效，并且随着模型的进一步优化，在预算内找到通过 CoT 监测的样本很少见。这一挑战自然表明，我们可以考虑将 CoT 监控器纳入 RL 奖励（一种基于流程的监督形式），以防止奖励黑客攻击。

然而，将 CoT 监控奖励纳入 RL 效果并不好，因为它会导致混淆的奖励黑客攻击，模型试图在 CoT 中隐藏其真实意图（Baker 等人，2025 年）。在 RL 训练期间施加 CoT 监视器提供的这种直接优化压力下，模型仍然可以找到黑客攻击的方法，尽管频率较低，但可以在 CoT 中隐藏其意图，以避免被监视器捕获。

Yeo 等人（2025 年）对 CoT 长度 RL 信号的实验证实了与 Baker 等人类似的信息，即新型的 RL 奖励塑造可能会发生新型的奖励黑客攻击。他们设计了奖励功能，使正确的 CoT 比错误的 CoT 获得更高的奖励，短期正确的 CoT 比长期正确的 CoT 获得更高的奖励，短期不正确的 CoT 比长期不正确的 CoT 获得更高的惩罚。通过这种额外的奖励，模型学会了在 CoT 中重复文本来回答具有挑战性的问题，而不是尝试解决它们。Yeo 等人进一步应用了 n-gram 重复惩罚来防止这种黑客行为。

Chen et al. （2025）对一个有缺陷的 RL 环境进行了实验，特别是使用为多项选择题填写错误答案的评分器。该模型学会了在 >99% 的提示中利用奖励黑客攻击，但几乎从未（<2%）在其 CoT 中对超过一半的环境进行奖励黑客攻击。在这种情况下，额外的 RL 优化压力无法激励模型用语言表达 hack。

RL 训练本质上对奖励黑客攻击很敏感。仅依靠对奖励黑客攻击和手动修复的启发式调查可能会导致 “打地鼠” 的情况。我们建议在 RL 训练期间尝试直接在 CoT 上应用优化时要非常谨慎，或者尝试完全避免它。

连续空间中的思考#

Alex Graves 于 2016 年引入的自适应计算时间早于大型语言模型，但开创了相同的方向，使模型能够动态决定在推理时要采取的计算步骤数，这可以被视为使模型能够在测试时在连续空间中 “思考更多”。连续空间中的自适应思考时间可以通过循环架构垂直启用，也可以通过更连续的采样步骤在水平方向上启用。

循环架构#

已经提出了许多架构变体，以使 Transformer 架构具有递归性，从而实现自适应测试时间计算（Dehghani 等人，2019 年，Hutchins 等人，2022 年，Bulatov 等人，2022 年）。深入研究有关此主题的文献会使这篇文章太长，因此我们只回顾少数几个。

Universal Transformer （ Dehghani， et al. 2019）将 Transformer 中的自我注意与 RNN 中的递归机制相结合，使用自适应计算时间动态调整步数（ Graves， 2016）。在高层次上，它可以被视为一个循环函数，用于学习每个 token 的隐藏状态表示，如果步数是固定的，则 Universal Transformer 相当于具有跨层共享参数的多层 Transformer。

Geiping 等人（2025 年）最近提出的递归架构设计在标准 Transformer 的顶部增加了一个递归块 $R$。这个循环块的每次迭代都采用 embedding $\mathbf {e}$ 和 random state $\mathbf {s}_i$。从概念上讲，这种循环深度架构有点类似于条件扩散模型，其中在每个循环步骤中提供原始输入 $\mathbf {e}$，而随机的高斯初始化状态 $\mathbf {s}_i$ 则在整个过程中迭代更新。（有趣的是，他们的一些更类似于扩散模型的设计实验被证明是糟糕的）。

$\mathbf{e} = P(\mathbf{x}) \quad \text{embedding}$

$\mathbf{s}_0 \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}) \quad n \cdot h$

$\mathbf{s}_i = R(\mathbf{e}, \mathbf{s}_{i-1}) \quad \text{for } i \in 1, \ldots, r \quad \text{recurrent block; resembles a Transformer block}$

$\mathbf{p} = C(\mathbf{s}_r) \quad \text{unembedding}$

Thinking Tokens#

思维标记是指在训练或推理过程中引入的一组隐式标记，这些标记不具有直接的语言含义。相反，它们的作用是提供额外的思考时间和计算能力，使模型性能更好。

Herel & Mikolov （2023）提出了在句子中的每个单词后插入特殊思维标记（ <T> ）并在这样的数据集上训练模型的想法。每个思考代币都为模型赢得了额外的时间来处理和做出更好的预测。在玩具模型设置上使用思维标记进行训练比没有思维标记训练的基线模型具有更低的困惑度。思维标记的好处对于非平凡的推理任务或涉及数字的句子更为明显。

同样，Goyal 等人（2024 年）提出的暂停标记通过在输入序列的末尾附加虚拟标记（例如字符如。或 # ）来延迟模型的输出，从而在推理过程中为模型提供额外的计算。在训练和推理期间注入此类暂停令牌非常重要，而仅对暂停令牌进行微调会导致收益有限。在训练期间，在均匀随机的位置插入多个暂停标记副本，并在训练中忽略暂停标记的损失。

有趣的是，上述实验中的思考标记或暂停标记并没有携带任何额外的信息或添加许多新参数。但为什么它仍然有帮助呢？一方面，它通过引入更多的推理循环来帮助扩展计算，从而有效地提高计算能力。另一方面，它可以被视为 CoT 的一种特殊的隐式形式。这里的一个缺点是模型需要根据思维标记进行预训练。尽管如此，这种策略仍然是一种有趣的方法，可以在推理时间 CoT 的基础上进一步提高测试时计算利用率的能力。

Quiet-STaR（Zelikman 等人，2025 年）通过训练模型在每个标记后生成理由来解释未来的文本，从而引入了标记级推理。它将有和没有理由的未来文本预测混合在一起，并使用学习来生成更好的理由，并使用 REINFORCE 来优化理由生成的质量。