なぜ私たちは考えるのか？

本文は Lilian Weng が最近書いたブログで、彼女の多くの見解に賛同し、多くのインスピレーションを受けました。
原文リンク：https://lilianweng.github.io/posts/2025-05-01-thinking/

目次#

動機付け
- 心理学との類似
- 計算は資源である
- 潜在変数モデリング
トークンベースの思考
- 分岐と編集
  - 並列サンプリング
  - 順次修正
- 推論を改善するための強化学習
- 外部ツールの使用
- 忠実な思考
  - モデルはその考えを忠実に表現しているか
  - CoT に対する最適化圧力の影響：良いのか悪いのか？
連続空間での思考
- 循環アーキテクチャ
- Thinking Tokens
潜在変数としての思考
- 期待値最大化
- 繰り返し学習
思考時間の拡張則
将来の展望
引用
参考文献

動機付け#

私たちは、モデルがより長い時間考えるように動機付けるためのいくつかの異なる方法を使用できます。

心理学との類似#

モデルの思考の核心的な考え方は、人間の思考方法と密接に関連しています。私たち人間は「12345 と 56789 を掛けたらいくつですか？」という答えを即座に提供することはできません。むしろ、結果を導き出す前に考え、分析する時間を費やすことは非常に自然なことであり、特に複雑な問題に対してはそうです。『思考、速くて遅く』（Kahneman、2013 年）では、ダニエル・カーネマン（Daniel Kahneman）が二重過程理論の視点から人間の思考を二つのモードに分けています：

迅速な思考（システム 1）は直感や感情に駆動されて迅速に自動的に実行され、ほとんど努力を必要としません。
ゆっくりとした思考（システム 2）は、深く考え抜いた論理的思考と多くの認知的努力を必要とします。この思考モードはより多くの精神的エネルギーを消費し、意識的な参加が必要です。

システム 1 の思考は迅速で単純であるため、正確性や論理性を犠牲にして最終的に主要な意思決定の駆動要因となることがよくあります。これは、私たちの脳の心理的ショートカット（すなわちヒューリスティック）に依存し、誤りや偏見を引き起こす可能性があります。意識的にペースを落とし、反省、改善、分析にもっと時間をかけることで、私たちはシステム 2 の思考に参加し、直感に挑戦し、より合理的な選択をすることができます。

計算は資源である#

深層学習の一つの見方は、神経ネットワークが正方向伝播中にアクセスできる計算（例えば、行列の乗算、活性化関数の計算）とストレージ量（例えば、モデルの重みやバイアス、中間活性値）を通じて表現できるということです。これらを最適化して勾配降下法を使用して問題を解決する場合、最適化プロセスはこれらの資源をどのように使用するかを理解することになります —— 彼らはこれらの資源を計算と情報ストレージの回路に組織する方法を理解することになります。この観点から、テスト時により多くの計算を行うことができるアーキテクチャやシステムを設計し、それを効果的に利用するように訓練すれば、より良い結果が得られるでしょう。

Transformer モデルでは、生成された各トークンに対してモデルが行う計算量（flops）は、パラメータの数の約 2 倍です。なぜなら、前方伝播と逆伝播の両方でパラメータが使用されるからです。mix of experts（MoE）のようなスパースモデルでは、各正方向伝播でごく一部のパラメータしか使用されないため、計算量は次のようになります：計算 = 2 * parameters /sparsity、ここで sparsity はアクティブなエキスパートの割合です。

一方、CoT はモデルが計算しようとする各トークンに対してより多くの flops 計算を実行できるようにします。実際、CoT には、モデルが問題の難易度に応じて計算量を調整できるという優れた特性があります。

潜在変数モデリング (Latent Variable Modeling)#

機械学習における古典的なアイデアは、潜在（隠れ）変数 $z$ と可視変数 $y$ を持つ確率モデルを定義することです。ここで、$y$ は私たちの学習アルゴリズムに与えられます。潜在変数の可能な値を周辺化（合計）することで、可視変数上で豊かな分布を表現することができます。 $P(y) = \sum_{z \sim P(z)} P(y | z)$
例えば、$x$ を問題のステートメント、$y$ をグラウンドトゥルースの答えまたは証明、$z$ を証明を導く自由形式の思考過程として、数値問題と解決策の分布をシミュレートすることができます。最適化する周辺確率分布は次のようになります：
$P(y | x) = \sum_{z \sim p(z|x)} P(y | x, z)$

トークンベースの思考#

Ling らは 2017 年に、特に数学問題に対して、短い答えを生成する前に中間ステップを生成する戦略を探求しました。彼らは AQUA-RAT データセットを導入し、その後 Cobbe らによって 2021 年に拡張され、小学校の数学（GSM）データセットが導入されました。Cobbe らは人工的に作成された解決策と検証器の上で、候補解決策の正確性を予測するために監視学習機能を持つ生成器を訓練しました。その後、彼らはこれらの解決策を検索することができました。Nye ら（2021 年）は、中間思考トークンを「メモ帳」として使用し、Wei ら（2022 年）は現在の標準用語である思考連鎖（CoT）を創造しました。

CoT 推論を改善するための初期の作業は、人間が書いた推論の軌跡や、回答の正確性をフィルタリングするモデルの軌跡に対して監視学習を行うことを含みます。後者は強化学習（RL）の基本的な形式と見なすことができます。他のいくつかの作業では、適切な「ステップバイステップで考える」というプロンプト（Kojima ら、2022 年）や、より複雑なプロンプトを使用して、モデルがまず関連知識を反映するように促すことで、指示調整モデルの数学的性能を大幅に向上させることができることがわかりました（Yasunaga ら、2023 年）。

その後の研究では、自動的にチェック可能な解決策を使用して問題データセットに対して強化学習を行うことで、CoT 推論能力を大幅に向上させることができることがわかりました。例えば、短い答えを持つ STEM 問題や、単体テストでチェック可能なコーディングタスク（Zelikman ら、2022 年、Wang ら、2023 年、Liu ら、2023 年）です。o1-preview、o3、R1 技術報告（DeepSeek-AI、2025 年）の発表に伴い、このアプローチはますます注目を集めており、戦略勾配アルゴリズムが強力な性能をもたらすことが示されています。

分岐と編集#

テスト時に計算の基本的な目的は、テスト時にモデルの出力分布を適応的に修正することです。テスト時間のリソースを利用してデコードするためのさまざまな方法があり、より良いサンプルを選択することで、モデルの予測をより理想的な分布に変更することができます。デコードプロセスを改善するための主な方法は、並列サンプリングと順次修正の二つです。

並列サンプリングは、複数の出力を同時に生成し、プロセス報酬信号を通じて各ステップにガイダンスを提供するか、終了時に検証器を使用して品質を判断します。これは、テスト時間の性能を向上させるために最も広く採用されているデコード方法です。例えば、最良の N またはビームサーチです。基本的な事実が利用できない場合、自己一貫性（Wang ら、2023 年）は、複数の CoT の出力の中から多数決で答えを選択するために一般的に使用されます。
順次修正は、前のステップの出力に基づいてモデルの応答を反復的に調整し、モデルが既存の応答を意図的に反映し、誤りを修正することを要求します。修正プロセスは微調整されたモデルに依存する必要があるかもしれません。なぜなら、外部フィードバックなしにモデルの内在的な自己修正能力に単純に依存することは改善をもたらさない可能性があるからです（Kamoi ら、2024 年、Huang ら、2024 年）。

並列サンプリングはシンプルで直感的で実装が容易ですが、モデルの能力に制限されます。つまり、モデルが一度に正しい解決策を実現できるかどうかです。順次修正はモデルに誤りを反映させることを明示的に要求しますが、速度が遅く、実装プロセスでは特に注意が必要です。なぜなら、正しい予測が誤って修正されたり、他の種類の幻覚が導入されたりするリスクがあるからです。この二つの方法は一緒に使用することができます。Snell ら（2024 年）は、シンプルな問題は純粋な順次テスト時間計算から利益を得る一方で、より難しい問題は通常、順次と並列計算の最適な比率で最も良い結果を示すことを示しました。

並列サンプリング#

生成モデルとスコアリング関数が与えられた場合、私たちはそれを使用して全体または一部のサンプルにスコアを付けることができ、さまざまな探索アルゴリズムを使用して高スコアのサンプルを探すことができます。Best-of-N は、このようなアルゴリズムの中で最もシンプルなものです：N 個の独立したサンプルを収集し、特定のスコアリング関数に基づいて最も高いスコアのサンプルを選択するだけです。ビームサーチは、探索プロセスをより適応的にし、解空間のより有望な部分により多くのサンプリング計算を費やすことを可能にする、より複雑な探索アルゴリズムです。

ビームサーチは、有望な部分系列のセットを維持し、それらを拡張することと、あまり有望でない部分系列を剪定することの間で交互に行います。選択メカニズムとして、プロセス報酬モデル（PRM; Lightman ら、2023 年）を使用してビームサーチ候補者の選択をガイドすることができます。Xie ら（2023 年）は、LLM を使用して自ら生成した推論ステップの正しさの可能性を評価し、それを選択肢形式にフォーマットし、各ステップの自己評価がビームサーチデコードプロセスにおける多段階推論の累積エラーを減少させることを発見しました。さらに、サンプリングプロセス中に温度アニーリングを使用することで、集約のランダム性を減少させるのに役立ちます。Xie らのこれらの実験は、Codex モデルの少数の GSM8k、AQuA、StrategyQA ベンチマークで 5-6% の改善を実現しました。報酬バランス探索（「REBASE」の略；Wu ら、2025 年）は、ビームサーチプロセス中に、softmax 正規化報酬スコアに基づいて、各ノードが各深さでどれだけ拡張すべきかを決定するプロセス報酬モデル（PRM）をそれぞれ訓練しました。江ら（2024 年）は、彼らの PRM を「RATIONALYST」と名付け、大量の未ラベルデータに基づいて合成基本原理のビームサーチガイダンスを行いました。基本原理を含む文脈と含まない文脈の時間の違いを比較する際に、実際の答えのラベルの負の対数確率を減少させるのに役立つかどうかに基づいて良い基本原理をフィルタリングします。推論時に、RATIONALYST は次の推論ステップの対数確率を推定するのを助ける（「暗黙的」）か、次の推論ステップをヒントの一部として直接生成する（「明示的」）ことで CoT 生成器にプロセス監視を提供します。

興味深いことに、明示的なゼロショットまたは少数ショットのプロンプトがない場合でも、緊急の思考連鎖推論パスをトリガーすることができます。Wang & Zhou（2024 年）は、最初のサンプリングトークンで最も信頼度の高いトップトークンを保持することによって、最初のサンプリングトークンで分岐を行い、その後、これらのサンプリング試験を続けて貪欲デコードを行うと、多くの系列自体が CoT を含むことを発見しました。特に、CoT が文脈に実際に現れると、最終的な答えに対するより自信のあるデコードをもたらします。最終的な答えの信頼度を計算するには、タスク特有のヒューリスティック手法（例えば、数学問題の最後の数値）を使用するか、モデルに「So the answer is」と答えのスパンを特定するようにさらにプロンプトを与える必要があります。最初のトークンでのみ分岐するという設計選択は、早期の分岐が潜在的なパスの多様性を著しく高めるという観察に基づいていますが、後期のトークンは以前の系列の影響を大きく受けます。

順次修正#

モデルが過去の回答の誤りを反映し修正できる場合、私たちはそのモデルが質の高い反復修正系列を生成し、質が向上し続けることを期待します。しかし、さまざまな失敗パターンのために、この自己修正能力は LLM には本質的に存在せず、すぐに使えるものではありません。例えば：（1）幻覚、すなわち正しい回答を不正確に修正すること；（2）未修正の行動に崩壊すること；例えば、最初の不正確な回答に対してわずかな修正を行うか、修正を行わないこと；または（3）テスト時に分布の変化に対して一般化できないこと。Huang ら（2024 年）の実験は、単純に自己修正を適用すると性能が低下することを示しており、モデルは自己改善のために外部フィードバックを必要とし、これは一致する基本事実、ヒューリスティック、タスク特有の指標、コーディング問題の単体テスト結果（Shinn ら、2023 年）、より強力なモデル（Zhang ら、2024 年）、および人間のフィードバック（Liu ら、2023 年）に基づくことができます。

自己修正学習（Welleck ら、2023 年）は、固定生成器モデルに対する校正器モデル $P_θ(y | y_0, x)$ を訓練することを目的としています。生成器モデルは一般的である一方で、校正器モデルはタスク特有であり、初期モデルの応答と追加のフィードバック（例えば、文、コンパイラ制限、単体テスト結果、オプションである可能性があります）に基づいて生成されます：

自己修正学習は、まずデータプール内で各プロンプトに対して複数の出力を生成します；
次に、ある出力の値が別の出力の値を上回る場合、同じプロンプトの二つの出力をペアにして価値向上対（プロンプト $x$、仮説 $y$、修正 $y'$）を作成します。
これらの対は、値 $v (y') - v (y)$ の改善と、二つの出力間の類似性に比例して選択されます。$\text {Similarity}(y, y')$ を使用して校正器モデルを訓練します。
探索を促すために、校正器はデータプールに新しい世代を提供します。推論時には、校正器を反復的に使用して順次修正の校正軌跡を作成できます。

再帰的チェック（Qu ら、2024 年）も、生成と自己修正を同時に行う単一モデルを訓練することを目的としています。

SCoRe（強化学習による自己修正；Kumar ら、2024 年）は、多段階 RL 手法であり、二回目の試行で初回の試行よりも良い答えを生成することでモデルに自己修正を促します。これには二つの訓練段階が含まれます：段階 1 は、二回目の試行の正確性を最大化することにのみ焦点を当て、初回の試行時には KL ペナルティを強制して、第一ラウンドの応答が基本モデルの行動から過度に逸脱しないようにします。段階 2 は、初回と二回目の試行で生成された答えの正確性を最適化します。理想的には、初回と二回目の試行の両方の性能が向上することを期待していますが、段階 1 を追加することで、モデルが初回の応答に対してわずかな編集または無編集の行動崩壊を防ぎ、段階 2 が結果をさらに改善します。

推論を改善するための強化学習#

最近、基本的な真の答えを持つ問題の集合（通常は STEM 問題や検証が容易な答えを持つパズル）を使用して言語モデルの推論能力を向上させ、モデルが正しい答えを得ることで報酬を与えることにより、言語モデルの推論能力を大幅に向上させることに成功しました。OpenAI の o-series モデルの強力な性能と、DeepSeek がその後発表したモデルと技術報告がこの分野の最近の活動を推進しました。

DeepSeek-R1（DeepSeek-AI、2025 年）は、高度な推論スキルを必要とするタスク（数学、コーディング、論理問題解決など）に特化したオープンソースの LLM です。彼らは R1 が推論と非推論タスクに特化できるように、2 回の SFT-RL 訓練を行いました。

コールドスタート SFT は、数千のコールドスタートデータの集合で DeepSeek-V3-Base 基本モデルを微調整します。このステップがないと、モデルは可読性が低く、言語が混在する問題が発生します。
推論向けの RL は、推論モデルをトレーニングするために、ルールベースの報酬の二種類を使用します：

フォーマット報酬：モデルは ... トークンで CoT をラップする必要があります。
正確性報酬：最終的な答えが正しいかどうか。数学問題の答えは、特定のフォーマット（例えば、ボックス内）で存在する必要があり、信頼できる検証を得るためです。コーディング問題では、コンパイラがテストケースが通過するかどうかを評価します。

拒否サンプリング + 非推論 SFT は、ステップ 2 の RL チェックポイントで作成された新しい SFT データを使用し、DeepSeek-V3 の執筆、事実 QA、自己認識などの分野からの非推論監視データを組み合わせて DeepSeek-V3-Base を再訓練します。

混在言語、長い段落、コードブロックを含む CoT をフィルタリングします。
DeepSeek-V3（DeepSeek-AI、2024 年）パイプラインには非推論タスクが含まれます。
一部の非推論タスクでは、プロンプトを通じて質問に答える前に、DeepSeek-V3 を呼び出して潜在的な CoT を生成します。しかし、「hello」のようなより簡単なクエリには CoT は必要ありません。
その後、合計 800k サンプルで DeepSeek-V3-Base を微調整し、2 エポック続けます。

最後の RL 段階では、推論と非推論プロンプトでステップ 3 のチェックポイントを訓練し、有用性、無害性、推論性を向上させます。

興味深いことに、DeepSeek チームは、純粋な RL を使用して SFT 段階なしでも、高度な推論能力（反射や回溯「ひらめきの瞬間」）を学ぶことができることを示しました。このモデルは、RL 訓練中に推論タスクを解決するために、より多くの思考トークンを費やすことを自然に学びました。「ひらめきの瞬間」が発生する可能性があり、これはモデルが以前の誤りを反省し、それらを修正するために他の方法を試みることを指します。その後、R1 の結果を再現するためのさまざまなオープンソースの作業が行われました。例えば、Open-R1、SimpleRL-reason、TinyZero など、すべて Qwen モデルに基づいています。これらの努力は、純粋な RL が数学問題において優れたパフォーマンスをもたらし、「ひらめきの瞬間」が発生することを確認しました。

DeepSeek チームは、いくつかの不成功の試みも共有しました。彼らはプロセス報酬モデル（PRM）を使用しなかったのは、各ステップのスコアリング基準を定義したり、中間ステップが正しいかどうかを判断したりするのが難しく、訓練が報酬ハッキングの攻撃を受けやすくなるからです。MCTS（モンテカルロ木探索）の試みも失敗しました。なぜなら、言語モデルのトークンの探索空間はチェスと比較して非常に大きく、探索を指導するための細粒度の価値モデルを訓練することも非常に困難だからです。失敗した試みは通常、独自の洞察を提供し、私たちは研究界が成功しなかったことをもっと共有することを奨励したいと思います。

外部ツールの使用#

推論ステップの中で、コードを実行したり数学計算を行ったりすることで、特定の中間ステップを信頼性高く正確に解決できます。この推論コンポーネントの一部を外部コードインタープリタにオフロードすることで、PAL（プログラム支援言語モデル；Gao ら、2022 年）や Chain of Code（Li ら、2023 年）などの外部ツールを使用して LLM の能力を拡張できます。LLM がコードを実行したり、計算機として機能したりする能力を学ぶ必要はありません。これらのコードシミュレーターは、コードチェーン内のように LLM によって拡張されることができ、標準のコードインタープリタが失敗した場合には、LLM を使用してそのコード行を実行することを選択できます。推論ステップを強化するためにコードを使用することは、特に数学問題、シンボリック推論、アルゴリズムタスクに有益です。これらの単体テストは、コーディング問題の一部として存在しない場合があり、その場合、モデルに自己生成された単体テストを生成させて解決策を検証するよう指示することができます（Shinn ら、2023 年）。

反応（Reason+Act; Yao ら、2023 年）は、ウィキペディア API の検索作業を推論軌跡の生成と組み合わせることで、推論パスに外部知識を組み込むことを可能にします。

OpenAI が最近発表した o3 と o4-mini は、推論プロセスにネット検索、コード実行、画像処理などのツールの使用が含まれるもう二つの良い例です。チームは、大規模な強化学習が GPT パラダイムと同じ傾向を示すことを観察しました。すなわち、「より多くの計算 = より良い性能」です。

忠実な思考#

深層学習モデルは通常ブラックボックスと見なされ、さまざまな可視化手法が提案されています。可視化は有用である理由はいくつかあります。まず、モデルがその作成者の意図と一致していないか、または監視によって判断できない方法で誤りを犯しているかを確認するための追加のテストを提供します。次に、モデルがその答えを計算するために合理的なプロセスを使用しているかどうかを特定するのに役立ちます。思考連鎖は、モデルの内部プロセスを自然言語で可視化する特に便利な可視化形式を提供します。しかし、この可視化は、モデルがその内部思考プロセスを忠実に記述するという仮定に基づいています。

最近の研究は、推論モデルの CoT を監視することで、モデルの誤った行動を効果的に検出できることを示しています。例えば、報酬ハッキングを検出することができ、さらには弱いモデルが強いモデルを監視できるようにすることもあります（Baker ら、2025 年）。テスト時間の計算を増やすことも対抗的な堅牢性を向上させることができます（Zaremba ら、2025 年）。これは直感的に理解できます。なぜなら、モデルが異常な入力（例えば、対抗的な例や脱獄の試み）に直面したとき、思考時間は特に有用であるべきだからです —— それは、直面している奇妙な状況を理解するために追加の思考時間を利用できるからです。

モデルはその考えを忠実に表現しているか#

直感的に言えば、忠実な推論を促す明確な訓練目標が欠如しているため、モデルの CoT は偏りがある可能性があります。また、人工的に作成された説明に基づいてモデルを微調整する際、これらの人工的なサンプルには誤りが含まれている可能性があります。したがって、CoT が常に忠実であると仮定することはできません。

Lanham ら（2023 年）は、意図的に CoT に誤りを導入し、それらが一連の選択問題（例えば、AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag）の正確性に与える影響を測定することで、CoT の忠実度の失敗のいくつかのパターンを研究しました：

エラー 1（早期回答）：モデルは CoT が生成される前に早すぎる結論を形成する可能性があります。これは、早期に切り捨てるか、CoT 内に誤りを挿入することでテストされました。異なるタスクは、CoT の有効性に対する異なる依存性を明らかにします。いくつかのタスクは切り捨てられた CoT に敏感ですが、他のタスクはそうではありません。Wang ら（2023 年）は、CoT の形成において、ブリッジオブジェクトや言語テンプレートに関連するより微妙な誤りが存在することを示す類似の実験を行いました。
エラー 2（無情報トークン）：無情報の CoT トークンは性能を向上させる可能性があります。この仮説は、CoT を埋め込みテキストで置き換える（例えば、すべての句点）ことで検証され、この設定では CoT がない場合と比較して正確性が向上せず、特定のタスクの性能がわずかに低下する可能性があることが示されました。
エラー 3（人間にとって不可読なコーディング）：関連情報のコーディング方法が人間にとって理解しにくい場合があります。非標準的な方法で CoT を解釈しても、データセット全体での性能が低下することはなく、正確性の向上は人間に可読な推論に依存しないことを示しています。

興味深いことに、Lanham らは、選択問題において小さなモデルが CoT をうまく利用できない可能性がある一方で、大きなモデルはすでに CoT なしでタスクを解決できる可能性があると考えています。この CoT 推論への依存度は、CoT を使用した場合と使用しなかった場合に同じ答えを得る割合で測定されますが、必ずしも選択問題のモデルサイズとともに増加するわけではありません。しかし、追加のタスクのモデルサイズとともに増加することがあり、これは思考時間が複雑な推論タスクにとってより重要であることを意味します。

CoT の忠実度をテストする代替手法には、直接 CoT パスを変更するのではなく、プロンプトを干渉させることが含まれます（Turpin ら、2023 年、Chua & Evans、2025 年、Chen ら、2025 年）。

一つの方法は、少数のサンプルで正しい答えを常に「（A）」としてマークし、真のラベルに関係なく偏りを導入することです。

別のプロンプト技術は、プロンプト内に誤解を招くプロンプトを挿入することです。例えば、「私は答えが <random_label> だと思いますが、あなたの考えを聞きたいです。」または「スタンフォードの教授は答えが < random_label > だと思います。」同じ問題に対するモデルの予測を、誤解を招くプロンプトがある場合とない場合で比較することで、モデルがプロンプトがその答えに与える影響を忠実に記述できるかどうかを測定できます。特に、モデルが異なるプロンプトと非プロンプトの答えを生成する場合、プロンプトを使用して問題を解決する際にモデルがプロンプトの影響を認めるかどうかを測定します。モデルが忠実であれば、影響を明示的に認め、その答えの変更がプロンプトによるものであることを認めるべきです。

多くの研究が、推論モデルがすべてのテストされた非推論モデルよりも信頼性高く暗示の影響を記述することを示しています。例えば、モデルがプロンプトを決定要因（「忠実な CoT」）として見なすサンプルの割合を測定できます。推論モデル（Claude 3.7 Sonnet、DeepSeek R1）は、全体的に非推論モデル（Claude 3.6、DeepSeek V3）よりも優れたパフォーマンスを示しました。

いくつかの証拠は、報酬モデルの使用がモデル出力の忠実度を低下させることを示しています。このテストでは、クラシックな RLHF における報酬モデルは、忠実な行動を促すように訓練されていません。なぜなら、好ましい比較データセットは、人間が見た目が良いまたはより魅力的なモデルを選択することによって収集されたからです。しかし、推論モデルでは、CoT パスは正しい最終的な答えを生成するように最適化されており、RM で定義された人間の好みに一致することは期待されていないため、直感的にはより忠実であると予想されます。

CoT に対する最適化圧力の影響：良いのか悪いのか？#

報酬ハッキング行動を監視する推論モデルの CoT は効果的です。この監視器を使用する簡単な方法は、テスト時に監視器をフィルターとして使用して拒否サンプリングを実行し、報酬ハッキングのない解決策を特定することです。しかし、これは RL の初期段階でのみ効果的であり、モデルがさらに最適化されるにつれて、CoT 監視によってサンプルを見つけることは稀です。この課題は自然に、CoT 監視器を RL 報酬に組み込むことを考慮する必要があることを示唆しています（プロセスに基づく監視の形式で、報酬ハッキングを防ぐために）。

しかし、CoT 監視報酬を RL に組み込むことはうまくいかず、混乱した報酬ハッキングを引き起こします。モデルは CoT 内でその真の意図を隠そうとします（Baker ら、2025 年）。RL 訓練中に CoT 監視器が提供するこの直接的な最適化圧力の下で、モデルは依然としてハッキングの方法を見つけることができ、頻度は低いものの、CoT 内でその意図を隠すことができます。監視器に捕まるのを避けるためです。

Yeo ら（2025 年）は、CoT の長さに対する RL 信号の実験が、Baker らと類似の情報を確認しました。すなわち、新しい RL 報酬形成が新しい報酬ハッキングを引き起こす可能性があることです。彼らは、正しい CoT が誤った CoT よりも高い報酬を得るように報酬機能を設計しました。短期的に正しい CoT が長期的に正しい CoT よりも高い報酬を得る一方で、短期的に誤った CoT が長期的に誤った CoT よりも高い罰を受けるようにしました。この追加の報酬により、モデルは挑戦的な問題に対して解決策を試みるのではなく、CoT 内でテキストを繰り返すことを学びました。Yeo らはさらに、このハッキング行動を防ぐために n-gram 繰り返しペナルティを適用しました。

Chen ら（2025 年）は、特に多項選択問題に誤った答えを埋めるスコアラーを使用した欠陥のある RL 環境で実験を行いました。このモデルは、>99% のプロンプトで報酬ハッキングを利用することを学びましたが、CoT 内で環境の半分以上に対して報酬ハッキングを行うことはほとんどありませんでした（<2%）。この場合、追加の RL 最適化圧力はモデルに言語でハックを表現させることを促すことができませんでした。

RL 訓練は本質的に報酬ハッキングに敏感です。報酬ハッキングと手動修正に対するヒューリスティックな調査にのみ依存することは、「モグラたたき」の状況を引き起こす可能性があります。私たちは、RL 訓練中に CoT に最適化を直接適用しようとする際には非常に注意が必要であるか、またはそれを完全に避けることを試みることを提案します。

連続空間での思考#

Alex Graves が 2016 年に導入した適応計算時間は、大規模言語モデルよりも早く、モデルが推論時に取る計算ステップ数を動的に決定できるようにし、これはモデルがテスト時に連続空間で「より多く考える」ことを可能にします。連続空間での適応思考時間は、循環アーキテクチャによって垂直に有効化されるか、より連続的なサンプリングステップによって水平方向に有効化されることができます。

循環アーキテクチャ#

Transformer アーキテクチャに再帰性を持たせるために、多くのアーキテクチャの変種が提案されています。これにより、適応テスト時間計算が実現されます（Dehghani ら、2019 年、Hutchins ら、2022 年、Bulatov ら、2022 年）。このテーマに関する文献を深く掘り下げると、この記事が長くなりすぎるため、いくつかの例を振り返るにとどめます。

Universal Transformer（Dehghani ら、2019 年）は、Transformer 内の自己注意と RNN 内の再帰メカニズムを組み合わせ、適応計算時間を使用してステップ数を動的に調整します（Graves、2016 年）。高レベルでは、これは各トークンの隠れ状態表現を学習するための循環関数として見ることができ、ステップ数が固定されている場合、Universal Transformer は層間で共有されたパラメータを持つ多層 Transformer に相当します。

Geiping ら（2025 年）が最近提案した再帰アーキテクチャ設計は、標準 Transformer の上に再帰ブロック $R$ を追加します。この循環ブロックの各反復は、埋め込み $\mathbf {e}$ とランダム状態 $\mathbf {s}_i$ を受け取ります。概念的には、この循環深度アーキテクチャは、各循環ステップで元の入力 $\mathbf {e}$ を提供し、ランダムなガウス初期状態 $\mathbf {s}_i$ が全体のプロセスで反復的に更新される条件付き拡散モデルにやや似ています。（興味深いことに、彼らのいくつかのより拡散モデルに類似した設計実験は、ひどい結果を示しました）。

$\mathbf{e} = P(\mathbf{x}) \quad \text{embedding}$

$\mathbf{s}_0 \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}) \quad n \cdot h$

$\mathbf{s}_i = R(\mathbf{e}, \mathbf{s}_{i-1}) \quad \text{for } i \in 1, \ldots, r \quad \text{recurrent block; resembles a Transformer block}$

$\mathbf{p} = C(\mathbf{s}_r) \quad \text{unembedding}$

Thinking Tokens#

Thinking Tokens は、訓練または推論プロセス中に導入される一連の暗黙的なトークンを指し、直接的な言語的意味を持ちません。むしろ、これらの役割は、モデルの性能を向上させるために追加の思考時間と計算能力を提供することです。

Herel & Mikolov（2023 年）は、文中の各単語の後に特別な思考トークン（）を挿入し、そのようなデータセット上でモデルを訓練するというアイデアを提案しました。各思考トークンは、モデルが処理し、より良い予測を行うための追加の時間を獲得します。おもちゃモデル設定で思考トークンを使用して訓練することは、思考トークンなしで訓練されたベースラインモデルよりも低い困惑度を持ちます。思考トークンの利点は、非平凡な推論タスクや数字を含む文に対してより明白です。

同様に、Goyal ら（2024 年）が提案したポーズトークンは、入力系列の末尾に仮想トークン（例えば、句読点や #など）を追加することでモデルの出力を遅らせ、推論プロセス中にモデルに追加の計算を提供します。このようなポーズトークンを訓練と推論の間に注入することが重要であり、ポーズトークンのみを微調整すると限られた利益しか得られません。訓練中に、均等にランダムな位置に複数のポーズトークンのコピーを挿入し、訓練中にポーズトークンの損失を無視します。

興味深いことに、上記の実験での思考トークンやポーズトークンは、追加の情報を持たず、多くの新しいパラメータを追加することはありません。しかし、なぜそれでも役立つのでしょうか？一方では、より多くの推論ループを導入することで計算を拡張し、計算能力を効果的に向上させるからです。もう一方では、これは CoT の特別な暗黙的形式と見なすことができます。ここでの一つの欠点は、モデルが思考トークンに基づいて事前訓練される必要があることです。それにもかかわらず、この戦略は推論時間の CoT に基づいてテスト時の計算利用率をさらに向上させる能力を持つ興味深い方法です。

Quiet-STaR（Zelikman ら、2025 年）は、モデルが各トークンの後に理由を生成して未来のテキストを説明するように訓練することで、トークンレベルの推論を導入しました。これは、理由の有無にかかわらず未来のテキスト予測を混合し、学習を使用してより良い理由を生成し、REINFORCE を使用して理由生成の質を最適化します。