本文是 Lilian Weng 最近寫的一篇博客,對她的許多觀點表示贊同,也受到了很多啟發。
原文鏈接:https://lilianweng.github.io/posts/2025-05-01-thinking/
目錄#
- 賦予動機
- 與心理學的類比
- 計算即資源
- 潛在變量建模
- 基於 Token 的思考
- 分支與編輯
- 並行採樣
- 順序修訂
- 強化學習以改善推理
- 外部工具使用
- 忠實思考
- 模型是否忠實表達其想法
- 優化壓力對 CoT 的影響:好還是壞?
- 分支與編輯
- 連續空間中的思考
- 循環架構
- Thinking Tokens
- 作為潛在變量的思考
- 期望最大化
- 迭代學習
- 思考時間的擴展法則
- 未來展望
- 引文
- 參考文獻
賦予動機#
我們可以通過幾種不同的方式激勵模型思考更長時間。
與心理學的類比#
模型思考的核心思想與人類的思維方式密切相關。我們人類不能立即提供 "What's 12345 times 56789?" 的答案。相反,在得出結果之前花時間思考和分析是很自然的,尤其是對於複雜的問題。在《思考,快與慢》(Kahneman,2013 年)中,丹尼爾・卡尼曼(Daniel Kahneman)通過雙重過程理論的視角將人類思維分為兩種模式:
- 快速思考(系統 1)在直覺和情感的驅動下快速自動運行,幾乎不需要任何努力。
- 慢速思考(系統 2)需要深思熟慮的邏輯思維和大量的認知努力。這種思維模式消耗更多的精神能量,需要有意識的參與。
因為系統 1 的思維既快速又簡單,所以它往往最終成為主要的決策驅動因素,而犧牲了準確性和邏輯性。它依賴於我們大腦的心理捷徑(即啟發式),並可能導致錯誤和偏見。通過有意識地放慢腳步,花更多的時間來反思、改進和分析,我們可以參與系統 2 的思考,挑戰我們的直覺並做出更理性的選擇。
計算即資源#
深度學習的一種觀點是,神經網絡可以通過它們在正向傳遞中可以訪問的計算(如矩陣乘法、激活函數的計算)和存儲量(如模型權重和偏置、中間激活值)來表徵,如果我們優化它們以解決使用梯度下降的問題,優化過程將弄清楚如何使用這些資源 —— 他們將弄清楚如何將這些資源組織成用於計算和信息存儲的電路。從這個角度來看,如果我們設計一個可以在測試時進行更多計算的架構或系統,並訓練它有效地利用這些資源,它會工作得更好。
在 Transformer 模型中,模型對每個生成的 token 所做的計算量(flops)大約是參數數量的 2 倍,因為前向傳播和反向傳播都要用到參數。對於像 mix of experts(MoE)這樣的稀疏模型,每次正向傳遞中只使用一小部分參數,因此計算 = 2 * parameters /sparsity,其中 sparsity 是活躍的 experts 的比例。
另一方面,CoT 使模型能夠為它試圖計算的答案的每個 token 執行更多的 flops 計算。事實上,CoT 有一個很好的特性,它允許模型根據問題的難易程度調整計算量。
潛在變量建模 (Latent Variable Modeling)#
機器學習中的一個經典想法是定義一個具有潛在(隱藏)變量 $z$ 和可見變量 $y$ 的概率模型,其中 $y$ 被賦予我們的學習算法。對潛在變量的可能值進行邊際化(求和)使我們能夠在可見變量上表達豐富的分布。
例如,我們可以通過讓 $x$ 表示問題的 statement,讓 $y$ 表示 ground truth answer or proof,以及 $z$ 作為導致證明的自由形式的思維過程來模擬數字問題和解決方案的分布。要優化的邊際概率分布為:
基於 Token 的思考#
Ling 等人在 2017 年探索了在生成簡短答案之前生成中間步驟的策略,特別是對於數學問題,他們引入了 AQUA-RAT 數據集,然後由 Cobbe 等人在 2021 年進行了擴展,他們引入了小學數學(GSM)數據集。Cobbe 等人在人工編寫的解決方案和驗證器上訓練一個具有監督學習功能的生成器,以預測候選解決方案的正確性;然後他們可以搜索這些解決方案。Nye 等人(2021 年)嘗試將中間思維代幣作為 “便簽簿”,Wei 等人(2022 年)創造了現在的標準術語思維鏈(CoT)。
改進 CoT 推理的早期工作涉及對人類編寫的推理軌跡或過濾答案正確性的模型編寫的軌跡進行監督學習,其中後者可以被視為強化學習(RL)的基本形式。其他一些工作發現,通過適當 "think step by step" 提示(Kojima 等人,2022 年)或更複雜的提示來鼓勵模型首先反思相關知識(Yasunaga 等人,2023 年),可以顯著提高指令調整模型的數學性能。
後來的工作發現,通過使用可自動檢查的解決方案對問題數據集進行強化學習,可以顯著提高 CoT 推理能力,例如帶有簡短答案的 STEM 問題,或可以通過單元測試檢查的編碼任務(Zelikman 等人,2022 年,Wang 等人,2023 年,Liu 等人,2023 年)。隨著 o1-preview、o3 和 R1 技術報告(DeepSeek-AI,2025 年)的發布,這種方法越來越受到關注,該報告表明,策略梯度算法可以帶來強大的性能。
分支與編輯#
測試時計算的基本目的是在測試時自適應地修改模型的輸出分布。有多種方法可以利用測試時間資源進行解碼,以選擇更好的樣本,從而將模型的預測更改為更理想的分布。改進解碼過程的兩種主要方法是並行採樣和順序修訂。
- 並行採樣同時生成多個輸出,同時通過過程獎勵信號為每一步提供指導,或使用驗證器在結束時判斷質量。它是提高測試時間性能的最廣泛採用的解碼方法,例如最佳 N 或波束搜索。當基本事實不可用時,自洽性(Wang 等人,2023 年)通常用於在多個 CoT 推出中以多數票選擇答案。
- 順序修訂根據上一步中的輸出迭代調整模型的響應,要求模型有意反映其現有響應並更正錯誤。修訂過程可能必須依賴於微調的模型,因為天真地依賴模型內在的自我糾正能力而沒有外部反饋可能不會帶來改進(Kamoi 等人,2024 年,Huang 等人,2024 年)。
並行採樣簡單、直觀且更易於實現,但受限於模型能力,即它是否能一次性實現正確的解決方案。Sequential 明確要求模型反思錯誤,但它速度較慢,並且在實現過程中需要格外小心,因為它確實存在正確預測被修改為錯誤或引入其他類型的幻覺的風險。這兩種方法可以一起使用。Snell et al.(2024)表明,簡單的問題受益於純粹的順序測試時間計算,而更難的問題通常在順序與並行計算的最佳比例下表現最好。
並行採樣#
給定一個生成模型和一個評分函數,我們可以使用它來對全部或部分樣本進行評分,我們可以使用各種搜索算法來查找高分樣本。Best-of- N 是最簡單的此類算法:只需收集 N 獨立樣本,然後根據某個評分函數選擇排名最高的樣本。Beam 搜索是一種更複雜的搜索算法,它使搜索過程更具適應性,在解空間更有前途的部分花費更多的採樣計算。
Beam 搜索維護一組有希望的部分序列,並在擴展它們和修剪不太有希望的部分序列之間交替。作為選擇機制,我們可以使用流程獎勵模型(PRM;Lightman et al. 2023)來指導光束搜索候選者的選擇。Xie et al.(2023)使用 LLM 來評估其自己生成的推理步驟正確的可能性,將其格式化為多項選擇題,發現每步自我評估減少了波束搜索解碼過程中多步推理中的累積錯誤。此外,在採樣過程中,溫度退火有助於減少聚合隨機性。Xie 等人的這些實驗在 Codex 模型的少發 GSM8k、AQuA 和 StrategyQA 基準測試中實現了 5-6% 的改進。獎勵平衡搜索(“REBASE” 的縮寫;Wu et al. 2025)分別訓練了一個過程獎勵模型(PRM),以確定在光束搜索過程中,根據 softmax 归一化獎勵分數,每個節點在每個深度上應該擴展多少。江 et al.(2024)訓練了他們的 PRM,命名為 “RATIONALYST”,用於以大量未標記數據為條件的合成基本原理的光束搜索指導。在比較上下文中包含基本原理與不包含基本原理的時間之間的差異時,根據它們是否有助於將真實答案標記的負對數概率降低閾值來篩選好的基本原理。在推理時,RATIONALYST 通過幫助估計下個推理步驟的對數概率(“隱式”)或直接生成下個推理步驟作為提示的一部分(“顯式”)來為 CoT 生成器提供過程監督。
有趣的是,在沒有明確的零鏡頭或少數鏡頭提示的情況下,可以觸發緊急的思維鏈推理路徑。Wang & 周(2024)發現,如果我們在第一個採樣標記上通過保留置信度最高的頂級標記(以採樣期間前 1 名和前 2 名候選人之間的差異來衡量)在第一個採樣標記處進行分支,然後繼續這些採樣試驗進行貪婪解碼,其中許多序列本身包含 CoT。特別是當 CoT 確實出現在上下文中時,它會導致對最終答案的更自信的解碼。要計算最終答案的置信度,需要通過特定於任務的啟發式方法(例如數學問題的最後一個數值)或通過進一步提示模型來識別答案跨度 "So the answer is"。僅在第一個標記處分支的設計選擇是基於以下觀察:早期分支顯著增強了潛在路徑的多樣性,而後期標記受先前序列的很大影響。
順序修訂#
如果模型能夠反映和糾正過去回答中的錯誤,我們就會期望該模型產生一個很好的迭代修訂序列,質量不斷提高。然而,由於各種失敗模式,這種自我糾正能力在 LLM 中本質上並不存在,也不容易開箱即用,例如:(1)幻覺,包括將正確的回答修改為不正確;(2)行為崩潰為未糾正的行為;例如,對第一個不正確的回答進行微小的修改或沒有修改;或(3)在測試時未能推廣到分布變化。Huang 等人(2024 年)的實驗表明,天真地應用自我糾正會導致性能變差,模型需要外部反饋來自我改進,這可以基於匹配的基本事實、啟發式和任務特定的指標、編碼問題的單元測試結果(Shinn 等人,2023 年)、更強的模型(Zhang 等人,2024 年)以及人類反饋(Liu 等人,2023 年)。
自我糾正學習(Welleck 等人,2023 年)旨在訓練給定固定生成器模型的校正器模型 $P_θ(y | y_0, x)$ 對 $P_0 (y_0 | x)$。雖然生成器模型仍然是通用的,但校正器模型可以是特定於任務的,並且僅根據初始模型響應和附加反饋(例如句子、編譯器限制、單元測試結果,可以是可選的)進行生成:
-
自我糾正學習首先生成,首先在數據池中為每個提示生成多個輸出;
-
然後,如果一個輸出的值高於另一個,則通過將同一提示的兩個輸出配對在一起創建價值提升對 (prompt $x$,hypothesis $y$,correction $y'$)。
-
這些對與值 $v (y') - v (y)$ 的改進,和兩個輸出之間的相似性成比例選擇,$\text {Similarity}(y, y')$ 以訓練校正器模型。
-
為了鼓勵探索,校正器還為數據池提供了新一代。在推理時,可以迭代使用 corrector 來創建順序修正的校正軌跡。
遞歸檢查(Qu et al. 2024)也旨在訓練一個更好的校正器模型,但使用單個模型同時進行生成和自我校正。
SCoRe(通過強化學習進行自我糾正;Kumar et al. 2024)是一種多輪 RL 方法,通過在第二次嘗試時產生比第一次嘗試時創建的答案更好的答案來鼓勵模型進行自我糾正。它包含兩個訓練階段:階段 1 僅最大限度地提高第二次嘗試的準確性,同時僅在第一次嘗試時強制執行 KL 懲罰,以避免第一輪響應與基本模型行為發生過多的偏移;階段 2 優化了第一次和第二次嘗試生成的答案的準確性。理想情況下,我們確實希望看到第一次和第二次嘗試的性能都更好,但添加階段 1 可以防止模型對第一次響應進行少量編輯或無編輯的行為崩潰,而階段 2 進一步改善結果。
強化學習以改善推理#
最近,通過使用具有基本真實答案的問題集合(通常是 STEM 問題和具有易於驗證答案的謎題)來提高語言模型的推理能力,並獎勵模型獲得正確答案,從而在提高語言模型的推理能力方面取得了很大成功。OpenAI 的 o -series 模型的強勁性能以及 DeepSeek 隨後發布的模型和技術報告推動了這一領域的近期活動。
DeepSeek-R1(DeepSeek-AI,2025)是一個開源的 LLM 旨在擅長需要高級推理技能的任務,如數學、編碼和邏輯問題解決。他們進行了 2 輪 SFT-RL 訓練,使 R1 能夠擅長推理和非推理任務。
-
冷啟動 SFT 是在數千個冷啟動數據的集合上微調 DeepSeek-V3-Base 基本模型。如果沒有此步驟,模型將存在可讀性差和語言混合的問題。
-
面向推理的 RL 使用兩種類型的基於規則的獎勵在僅推理提示上訓練推理模型:
- 格式獎勵:模型應通過 ... token 包裝 CoT。
- 準確率獎勵:最終答案是否正確。數學問題的答案需要以特定格式存在(例如,在盒子中)才能得到可靠的驗證。對於編碼問題,編譯器用於評估測試用例是否通過。
- 拒絕抽樣 + 非推理 SFT 利用第 2 步 RL 檢查點上的拒絕抽樣創建的新 SFT 數據,並結合來自 DeepSeek-V3 寫作、事實 QA 和自我認知等領域的非推理監督數據,進行重新訓練 DeepSeek-V3-Base。
- 過濾掉具有混合語言、長段落和代碼塊的 CoT。
- 使用 DeepSeek-V3(DeepSeek-AI,2024)管道包括非推理任務。
- 對於某些非推理任務,在通過提示回答問題之前,調用 DeepSeek-V3 生成潛在的 CoT。但對於像 “hello” 這樣更簡單的查詢,不需要 CoT。
- 然後,在總共 800k 個樣本上微調 DeepSeek-V3-Base,持續 2 個 epoch。
- 最後的 RL 階段在推理和非推理提示上訓練第 3 步檢查點,提高有用性、無害性和推理性。
有趣的是,DeepSeek 團隊表明,使用純 RL,沒有 SFT 階段,仍然可以學習高級推理能力,如反射和回溯(“頓悟時刻”)。該模型自然而然地學會了在 RL 訓練過程中花費更多的思考代幣來解決推理任務。可能會出現 “頓悟時刻”,指的是模型反思以前的錯誤,然後嘗試其他方法來糾正它們。後來,發生了各種開源工作來複製 R1 結果,例如 Open-R1、SimpleRL-reason 和 TinyZero,所有這些都基於 Qwen 模型。這些努力還證實,純 RL 會導致數學問題上的出色表現,以及出現的 “頓悟時刻”。
DeepSeek 團隊還分享了他們一些不成功的嘗試。他們沒有使用流程獎勵模型(PRM),因為很難定義每個步驟的評分量規或確定中間步驟是否正確,同時使訓練更容易受到獎勵黑客攻擊。MCTS(蒙特卡洛樹搜索)的努力也失敗了,因為與國際象棋相比,語言模型標記的搜索空間很大;訓練用於指導搜索的細粒度價值模型也非常具有挑戰性。失敗的嘗試通常會提供獨特的見解,我們想鼓勵研究界更多地分享沒有成功的事情。
外部工具使用#
在推理步驟中,可以通過執行代碼或運行數學計算來可靠、準確地解決某些中間步驟。將這部分推理組件卸載到外部代碼解釋器中,就像在 PAL(程序輔助語言模型;Gao et al. 2022)或 Chain of Code(Li et al. 2023)可以使用外部工具擴展 LLM 的能力,無需 LLM 學習執行代碼或本身作為計算器的功能。這些代碼仿真器,就像在代碼鏈中一樣,可以通過 LLM 進行擴充,這樣,如果標準代碼解釋器失敗,我們可以選擇使用 LLM 來執行該代碼行。使用代碼來增強推理步驟對於數學問題、符號推理和算法任務特別有益。這些單元測試可能不作為編碼問題的一部分存在,在這些情況下,我們可以指示模型自行生成單元測試,以便對其進行測試以驗證解決方案(Shinn 等人,2023 年)。
反應(Reason+Act;Yao et al. 2023)將搜索維基百科 API 的作與推理軌跡的生成相結合,使得推理路徑可以融入外部知識。
OpenAI 最近發布的 o3 和 o4-mini 是另外兩個很好的例子,其中推理過程涉及到像網絡搜索、代碼執行和圖像處理這樣的工具使用。該團隊觀察到,大規模強化學習表現出與 GPT 範式相同的趨勢,即 “更多的計算 = 更好的性能”。
忠實思考#
深度學習模型通常被視為黑匣子,並且已經提出了各種可解釋性方法。可解釋性很有用,原因有幾個:首先,它為我們提供了一個額外的測試,以確定模型是否與其創建者的意圖不一致,或者它是否以某種我們無法通過監控其作來判斷的方式出現錯誤。其次,它可以幫助我們確定模型是否使用合理的過程來計算其答案。思維鏈提供了一種特別方便的可解釋性形式,因為它使模型的內部過程在自然語言中可見。然而,這種可解釋性建立在模型如實描述其內部思維過程的假設之上。
最近的研究表明,監控推理模型的 CoT 可以有效地檢測模型錯誤行為,例如獎勵黑客攻擊,甚至可以使較弱的模型能夠監控較強的模型(Baker 等人,2025 年)。增加測試時間計算也可以提高對抗魯棒性(Zaremba 等人,2025 年);這在直覺上是有道理的,因為當模型出現不尋常的輸入(例如對抗性示例或越獄嘗試)時,思考時間應該特別有用 —— 它可以利用額外的思考時間來理解它所面臨的奇怪情況。
模型是否忠實表達其想法#
直觀地說,由於缺乏旨在鼓勵忠實推理的明確訓練目標,模型 CoT 可能會有偏差。或者,當我們根據人工編寫的解釋微調模型時,這些人工編寫的樣本可能包含錯誤。因此,我們不能默認假設 CoT 總是忠實的。
Lanham 等人(2023 年)通過故意將錯誤引入 CoT 並衡量它們對一組多項選擇任務(例如 AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag)準確性的影響,研究了 CoT 忠實度失敗的幾種模式:
- 錯誤 1(早期回答):模型可能會在 CoT 生成之前過早地形成結論。這是通過早期截斷或插入 CoT 中的錯誤來測試的。不同的任務揭示了不同的任務對 CoT 有效性的不同依賴性;有些對截斷的 CoT 敏感,但有些則不敏感。Wang et al.(2023)做了類似的實驗,但在 CoT 的形成中,存在與橋接對象或語言模板相關的更微妙的錯誤。
- 錯誤 2(無信息令牌):無信息量的 CoT 令牌可以提高性能。這個假設是通過用填充文本替換 CoT 來檢驗的(例如,所有句點),與沒有 CoT 相比,這種設置顯示準確性沒有提高,並且某些任務的性能可能會略有下降。
- 錯誤 3(人類不可讀的編碼):相關信息的編碼方式對人類難以理解。以非標準方式解釋 CoT 並不會降低跨數據集的性能,這表明準確性的提高並不依賴於人類可讀的推理。
有趣的是,Lanham 等人認為,對於多項選擇題,較小的模型可能無法很好地利用 CoT,而較大的模型可能已經能夠在沒有 CoT 的情況下解決任務。這種對 CoT 推理的依賴性,以使用 CoT 與不使用 CoT 獲得相同答案的百分比來衡量,並不總是隨著多項選擇題的模型大小而增加,但確實會隨著附加任務的模型大小而增加,這意味著思考時間對於複雜的推理任務更為重要。
測試 CoT 忠誠度的替代方法包括干擾提示,而不是直接修改 CoT 路徑(Turpin 等人. 2023,Chua & Evans,2025,Chen et al. 2025)。
一種方法在少數樣本中始終將正確答案標記為 “(A)”,而不管真正的標籤如何,以引入偏差。
另一種提示技術在提示中插入誤導性提示,例如 "I think the answer is <random_label> but curious to hear what you think"。或 "A Stanford Professor thinks the answer is <random_label>"。通過將同一問題的模型預測與沒有誤導性提示的 vs 進行比較,我們可以衡量模型是否能夠忠實地描述提示對其答案的影響。特別是,在模型產生不同提示和非提示答案的情況下,我們測量模型在用提示解決問題時是否承認提示。如果模型是忠實的,它應該明確承認影響並承認其答案的更改是由於提示。
多項研究發現,推理模型比所有測試的非推理模型更可靠地描述暗示的影響。例如,我們可以測量模型將提示視為決定因素(“忠實的 CoT”)的樣本比例。推理模型(Claude 3.7 Sonnet、DeepSeek R1)整體上比非推理模型(Claude 3.6、DeepSeek V3)表現得更好。
一些證據表明,使用獎勵模型會導致模型輸出的忠實度降低。在本測試中,經典 RLHF 中的獎勵模型沒有經過訓練來激勵忠實的行為,因為偏好比較數據集是由人類選擇看起來更好或更令人愉悅的模型來收集的。然而,在推理模型中,CoT 路徑經過優化以產生正確的最終答案,而不是匹配 RM 中定義的人類偏好,因此直觀地預期會更加忠實。
優化壓力對 CoT 的影響:好還是壞?#
監控獎勵黑客行為的推理模型的 CoT 是有效的。使用此監控器的一種簡單方法是在測試時將監控器作為過濾器運行拒絕採樣,並在沒有獎勵黑客的情況下識別解決方案。然而,它僅在 RL 的早期階段有效,並且隨著模型的進一步優化,在預算內找到通過 CoT 監測的樣本很少見。這一挑戰自然表明,我們可以考慮將 CoT 監控器納入 RL 獎勵(一種基於流程的監督形式),以防止獎勵黑客攻擊。
然而,將 CoT 監控獎勵納入 RL 效果並不好,因為它會導致混淆的獎勵黑客攻擊,模型試圖在 CoT 中隱藏其真實意圖(Baker 等人,2025 年)。在 RL 訓練期間施加 CoT 監視器提供的這種直接優化壓力下,模型仍然可以找到黑客攻擊的方法,儘管頻率較低,但可以在 CoT 中隱藏其意圖,以避免被監視器捕獲。
Yeo 等人(2025 年)對 CoT 長度 RL 信號的實驗證實了與 Baker 等人類似的信息,即新型的 RL 獎勵塑造可能會發生新型的獎勵黑客攻擊。他們設計了獎勵功能,使正確的 CoT 比錯誤的 CoT 獲得更高的獎勵,短期正確的 CoT 比長期正確的 CoT 獲得更高的獎勵,短期不正確的 CoT 比長期不正確的 CoT 獲得更高的懲罰。通過這種額外的獎勵,模型學會了在 CoT 中重複文本來回答具有挑戰性的問題,而不是嘗試解決它們。Yeo 等人進一步應用了 n-gram 重複懲罰來防止這種黑客行為。
Chen et al.(2025)對一個有缺陷的 RL 環境進行了實驗,特別是使用為多項選擇題填寫錯誤答案的評分器。該模型學會了在 >99% 的提示中利用獎勵黑客攻擊,但幾乎從未(<2%)在其 CoT 中對超過一半的環境進行獎勵黑客攻擊。在這種情況下,額外的 RL 優化壓力無法激勵模型用語言表達 hack。
RL 訓練本質上對獎勵黑客攻擊很敏感。僅依靠對獎勵黑客攻擊和手動修復的啟發式調查可能會導致 “打地鼠” 的情況。我們建議在 RL 訓練期間嘗試直接在 CoT 上應用優化時要非常謹慎,或者嘗試完全避免它。
連續空間中的思考#
Alex Graves 於 2016 年引入的自適應計算時間早於大型語言模型,但開創了相同的方向,使模型能夠動態決定在推理時要採取的計算步驟數,這可以被視為使模型能夠在測試時在連續空間中 “思考更多”。連續空間中的自適應思考時間可以通過循環架構垂直啟用,也可以通過更連續的採樣步驟在水平方向上啟用。
循環架構#
已經提出了許多架構變體,以使 Transformer 架構具有遞歸性,從而實現自適應測試時間計算(Dehghani 等人,2019 年,Hutchins 等人,2022 年,Bulatov 等人,2022 年)。深入研究有關此主題的文獻會使這篇文章太長,因此我們只回顧少數幾個。
Universal Transformer(Dehghani,et al. 2019)將 Transformer 中的自我注意與 RNN 中的遞歸機制相結合,使用自適應計算時間動態調整步數(Graves,2016)。在高層次上,它可以被視為一個循環函數,用於學習每個 token 的隱藏狀態表示,如果步數是固定的,則 Universal Transformer 相當於具有跨層共享參數的多層 Transformer。
Geiping 等人(2025 年)最近提出的遞歸架構設計在標準 Transformer 的頂部增加了一個遞歸塊 $R$。這個循環塊的每次迭代都採用 embedding $\mathbf {e}$ 和 random state $\mathbf {s}_i$。從概念上講,這種循環深度架構有點類似於條件擴散模型,其中在每個循環步驟中提供原始輸入 $\mathbf {e}$,而隨機的高斯初始化狀態 $\mathbf {s}_i$ 則在整個過程中迭代更新。(有趣的是,他們的一些更類似於擴散模型的設計實驗被證明是糟糕的)。
Thinking Tokens#
思維標記是指在訓練或推理過程中引入的一組隱式標記,這些標記不具有直接的語言含義。相反,它們的作用是提供額外的思考時間和計算能力,使模型性能更好。
Herel & Mikolov(2023)提出了在句子中的每個單詞後插入特殊思維標記(<T>)並在這樣的數據集上訓練模型的想法。每個思考代幣都為模型贏得了額外的時間來處理和做出更好的預測。在玩具模型設置上使用思維標記進行訓練比沒有思維標記訓練的基線模型具有更低的困惑度。思維標記的好處對於非平凡的推理任務或涉及數字的句子更為明顯。
同樣,Goyal 等人(2024 年)提出的暫停標記通過在輸入序列的末尾附加虛擬標記(例如字符如。或 #)來延遲模型的輸出,從而在推理過程中為模型提供額外的計算。在訓練和推理期間注入此類暫停令牌非常重要,而僅對暫停令牌進行微調會導致收益有限。在訓練期間,在均勻隨機的位置插入多個暫停標記副本,並在訓練中忽略暫停標記的損失。
有趣的是,上述實驗中的思考標記或暫停標記並沒有攜帶任何額外的信息或添加許多新參數。但為什麼它仍然有幫助呢?一方面,它通過引入更多的推理循環來幫助擴展計算,從而有效地提高計算能力。另一方面,它可以被視為 CoT 的一種特殊的隱式形式。這裡的一個缺點是模型需要根據思維標記進行預訓練。儘管如此,這種策略仍然是一種有趣的方法,可以在推理時間 CoT 的基礎上進一步提高測試時計算利用率的能力。
Quiet-STaR(Zelikman 等人,2025 年)通過訓練模型在每個標記後生成理由來解釋未來的文本,從而引入了標記級推理。它將有和沒有理由的未來文本預測混合在一起,並使用學習來生成更好的理由,並使用 REINFORCE 來優化理由生成的質量。