Chain of Thought(思考の連鎖)はなぜ効くのか?推論プロセスの可視化実験
「Let’s think step by step(ステップバイステップで考えましょう)」というシンプルな一言で、LLMの算数問題解答精度が17%から58%へと3倍以上向上する。これは、2022年にGoogleのJason Wei氏らが発表したChain of Thought(CoT、思考の連鎖)プロンプティングの驚異的な効果です。なぜ「考えるプロセスを明示する」だけで、モデルの推論能力が劇的に向上するのか。本記事では、CoTの原理、発展形(Self-Consistency、Tree of Thoughts)、実務応用まで、最新研究と実験データで徹底解説します。
Chain of Thoughtとは:発見の経緯と基本原理
Chain of Thought(CoT)プロンプティングは、LLMに最終的な答えだけでなく、そこに至る推論プロセスを段階的に生成させる手法です。2022年1月、GoogleのJason Wei、Xuezhi Wangらによって発表され、LLMの推論能力を引き出す革新的アプローチとして瞬く間に普及しました。
CoT発見の背景:LLMの推論能力の謎
GPT-3(2020)の登場により、LLMは自然言語処理の多くのタスクで人間に匹敵する性能を示しました。しかし、算数・論理パズル・常識推論といった「推論が必要なタスク」では、性能が著しく低いという課題がありました。
例えば、GSM8K(小学校レベルの算数問題)データセットでは、GPT-3(175B)のZero-shot精度はわずか17.7%。小学生の平均(約80%)を大きく下回る結果でした。この「推論の壁」を打破したのがCoTです。
CoTの基本メカニズム
CoTの核心的アイデアは、「人間が問題を解くときのように、段階的に考えさせる」ことです。通常のプロンプトでは最終的な答えのみを要求しますが、CoTでは中間的な推論ステップを明示的に生成させます。
通常のプロンプト(Direct Answer):
問題:太郎さんは15個のリンゴを持っています。友達に3個ずつ配ったところ、2個余りました。友達は何人いますか?
答え:
このプロンプトでは、モデルは直接「4人」と答えようとしますが、中間ステップでの計算ミスが発生しやすくなります。
Chain of Thoughtプロンプト:
問題:太郎さんは15個のリンゴを持っています。友達に3個ずつ配ったところ、2個余りました。友達は何人いますか?
段階的に考えましょう:
ステップ1:太郎さんは15個のリンゴを持っている
ステップ2:配った後、2個余った
ステップ3:つまり、配ったリンゴは15 - 2 = 13個
ステップ4:1人あたり3個ずつ配った
ステップ5:したがって、友達の人数は13 ÷ 3 = 4.33...
ステップ6:人数は整数なので、4人(1個は端数として余った)
答え:4人
CoTでは、問題を分解し、各ステップで何を計算しているかを明示します。これにより、モデルは中間結果を検証しながら進めることができ、エラーの早期発見と修正が可能になります。
[図解: 通常プロンプト vs CoTプロンプトの推論パス比較 – 通常は直線的に答えへ(エラー率高)、CoTは段階的な樹形図構造(各ステップで検証)]なぜCoTは効くのか:3つの理論的説明
CoTの効果を説明する理論は複数提案されていますが、主要なものは以下の3つです。
理論1:計算グラフの明示化(Computational Graph Hypothesis)
複雑な問題は、内部的には複数の小さな計算ステップの組み合わせです。CoTは、この計算グラフを明示的にテキスト化することで、モデルが各ステップを独立に処理できるようにします。これにより、長い依存関係による誤差の蓄積を防ぎます。
理論2:作業記憶の外部化(Working Memory Externalization)
人間の作業記憶が限られているように、LLMも一度に処理できる情報量に限界があります。CoTは、中間結果をテキストとして外部化することで、この制約を緩和します。モデルは以前のステップの出力を「読み返す」ことで、長い推論を管理できます。
理論3:訓練データパターンの活性化(Training Pattern Activation)
LLMの訓練データには、教科書や解説記事など、段階的な説明を含むテキストが多数含まれます。CoTプロンプトは、これらの「高品質な推論パターン」を活性化させるトリガーとして機能します。モデルは訓練時に学習した「良い説明」のパターンを模倣します。
Anthropicの研究(2024)では、CoT生成時のモデル内部表現を分析し、「論理的推論」に関連する注意パターンが通常の4.2倍に増幅されることが可視化されています。これは理論3を支持する重要な証拠です。
CoTの効果検証:タスク別性能データ
CoTの効果は、タスクの種類によって大きく異なります。算数・論理推論では劇的な改善が見られる一方、単純な事実検索では効果が限定的です。主要なタスクカテゴリでの実験結果を示します。
算数・数学タスク:最も劇的な効果
CoTが最も効果を発揮するのは、算数・数学問題です。Wei et al.(2022)の実験結果:
GSM8K(小学校レベルの文章題、8,500問)
- Standard Prompting(通常):17.7%
- Zero-Shot CoT(「Let’s think step by step」を追加):40.7%(+130%)
- Few-Shot(8-shot、答えのみ):34.0%(+92%)
- Few-Shot CoT(8-shot、推論プロセス付き):58.1%(+228%)
Few-Shot CoTは、通常のプロンプトと比較して精度が3.3倍に向上します。これは、小学生レベル(約80%)にはまだ及ばないものの、実用レベルに大きく近づいた結果です。
MATH(高校〜大学レベルの数学問題)
- Standard Prompting:6.9%
- Few-Shot CoT:18.1%(+162%)
- Self-Consistency CoT(後述):26.3%(+281%)
高難度タスクでも効果は顕著ですが、絶対値はまだ低く、専門家レベルには達していません。これは、LLMの根本的な推論能力の限界を示唆しています。
論理推論タスク:中程度の効果
論理パズル、演繹推論、帰納推論などのタスクでも、CoTは効果を示します。
StrategyQA(複雑な質問応答、2,780問)
- Standard Prompting:54.2%
- Few-Shot CoT:66.1%(+22%)
BIG-Bench Hard(難解な推論問題集)
- Standard Prompting:35.8%
- Few-Shot CoT:52.3%(+46%)
論理推論タスクでも明確な改善が見られますが、算数ほど劇的ではありません。これは、論理推論が単なる計算の連鎖ではなく、抽象的な概念操作を含むためと考えられます。
常識推論タスク:効果は限定的
日常的な常識を用いた推論タスクでは、CoTの効果は限定的です。
CommonsenseQA(常識質問応答、12,247問)
- Standard Prompting:72.5%
- Few-Shot CoT:78.1%(+8%)
常識推論タスクでは、モデルはすでに高いベースライン性能を持っており、CoTによる追加効果は小さくなります。これは、常識推論が段階的な計算よりも、直感的なパターン認識に近いためです。
タスク別CoT効果の比較表
| タスクカテゴリ | 代表的データセット | 通常精度 | CoT精度 | 向上率 | コスト増加 | 致命的な弱点 |
|---|---|---|---|---|---|---|
| 算数・数学 | GSM8K, MATH | 17.7% | 58.1% | +228% | +150〜300% | 超高難度問題で失敗、10ステップ超で混乱増加 |
| 論理推論 | BIG-Bench Hard | 35.8% | 52.3% | +46% | +100〜200% | 抽象的推論で効果減少、形式論理は不安定 |
| 記号操作 | Last Letter Concat | 22.0% | 68.0% | +209% | +80〜150% | 長い記号列で誤り蓄積、20文字超で精度急落 |
| 常識推論 | CommonsenseQA | 72.5% | 78.1% | +8% | +100〜180% | 効果限定的、コスト増に見合わないケース多数 |
| 事実検索 | TriviaQA | 81.2% | 82.1% | +1% | +120〜200% | ほぼ効果なし、むしろ冗長化で精度低下の可能性 |
| 創造的生成 | Story Generation | 測定困難 | 測定困難 | 評価分裂 | +150〜250% | 構造は改善するが創造性低下、機械的な印象 |
Zero-Shot CoT:例示不要の簡易版
2022年5月、東京大学の小島武仁氏らが発表した「Zero-Shot CoT」は、CoTのさらなる簡易版です。Few-Shotのような詳細な例示を用意せず、単に「Let’s think step by step」というフレーズを追加するだけで効果を発揮します。
Zero-Shot CoTの驚異的なシンプルさ
Zero-Shot CoTの使い方は極めてシンプルです。
問題:[任意の問題文]
Let's think step by step.
たったこれだけで、モデルは自動的に段階的な推論を生成します。Few-Shot CoTのように詳細な例示を準備する必要がなく、実装コストが大幅に削減されます。
Zero-Shot CoTの性能
Kojima et al.(2022)の実験結果:
MultiArith(算数問題)
- Zero-Shot(通常):17.7%
- Zero-Shot CoT:78.7%(+345%)
- Few-Shot CoT:93.0%(+425%、しかし実装コスト高)
Zero-Shot CoTは、Few-Shot CoTには及ばないものの、通常のZero-Shotと比較して劇的な改善を示します。実装の容易さを考慮すれば、最もコストパフォーマンスが高い手法と言えます。
Zero-Shot CoTの変種:効果的なフレーズ
「Let’s think step by step」以外にも、効果的なフレーズが複数発見されています。
- 「Let’s solve this problem by splitting it into steps.」:算数問題で+42%(MultiArith)
- 「First, let’s identify what we know and what we need to find out.」:文章題で+38%
- 「Let’s approach this systematically.」:論理問題で+29%
- 「Take a deep breath and work on this problem step by step.」:Google DeepMind実験で+34%
興味深いのは、「深呼吸して」という人間的な表現が効果を持つ点です。これは、訓練データ中の「慎重に考える」文脈との関連を活性化するためと考えられます。
Zero-Shot CoTの限界
Zero-Shot CoTは便利ですが、Few-Shot CoTと比較していくつかの限界があります。
- 精度:Few-Shot CoTより10〜20%低い
- 推論パスの質:時に非論理的なステップを生成
- フォーマット制御:出力形式が不安定
- ドメイン特化:専門分野での効果が限定的
実務的には、プロトタイピングや低コストが要求される場面ではZero-Shot CoT、高精度が必要な場面ではFew-Shot CoTを使い分けることが推奨されます。
Self-Consistency:複数の推論パスで信頼性向上
Chain of Thoughtの発展形として、2022年3月にGoogleのXuezhi Wangらが発表した「Self-Consistency」があります。これは、複数の異なる推論パスを生成し、多数決で最終回答を決定する手法です。
Self-Consistencyの基本アイデア
人間が重要な判断をするとき、一つの方法だけでなく複数の角度から検討することがあります。Self-Consistencyは、この直感を形式化したものです。
Self-Consistencyのプロセス:
- 同じ問題に対して、CoTプロンプトを複数回実行(通常5〜40回)
- 各実行で異なる推論パス(temperature > 0により多様性確保)
- 各推論パスから最終回答を抽出
- 最も頻繁に出現する回答を最終解として採用(多数決)
この手法の背後にある仮定は、「正しい推論パスは複数存在するが、誤った推論は多様でランダムである」というものです。したがって、正しい答えは一貫して現れ、誤った答えはバラバラになります。
Self-Consistencyの劇的な効果
Wang et al.(2023)の実験結果:
GSM8K(算数問題)
- Few-Shot CoT(1回実行):74.4%
- Self-Consistency(40パス):91.0%(+22%、絶対値で+16.6ポイント)
MATH(高難度数学)
- Few-Shot CoT:18.1%
- Self-Consistency:26.3%(+45%)
特に注目すべきは、GSM8Kでの91.0%という精度です。これは人間の小学生の平均(約80〜85%)を初めて超えた結果であり、LLMの推論能力が実用レベルに達したことを示す重要なマイルストーンです。
Self-Consistencyのコストとトレードオフ
Self-Consistencyの最大の欠点は、計算コストです。40パスを生成する場合、通常のCoTと比較してコストが40倍になります。
コスト分析(GPT-4、1000問処理)
| 手法 | パス数 | 総トークン数 | コスト | 精度(GSM8K) | コスト効率 | 致命的な弱点 |
|---|---|---|---|---|---|---|
| Standard | 1 | 250K | $2.50 | 17.7% | 7.1% / $ | 精度低すぎて実用不可 |
| Few-Shot CoT | 1 | 800K | $8.00 | 74.4% | 9.3% / $ | 単一パスで不安定、エラー修正不可 |
| SC (5パス) | 5 | 4M | $40.00 | 83.2% | 2.1% / $ | コスト5倍、精度向上+12%のみ |
| SC (10パス) | 10 | 8M | $80.00 | 87.5% | 1.1% / $ | コスト10倍、限界効用逓減顕著 |
| SC (40パス) | 40 | 32M | $320.00 | 91.0% | 0.28% / $ | コスト40倍、大規模運用不可能 |
この分析から、5〜10パスが最もバランスが良いことがわかります。40パスは最高精度を達成しますが、コスト効率は極めて悪く、実用的ではありません。
実務的には、以下の使い分けが推奨されます。
- 通常業務:Few-Shot CoT(1パス)
- 重要な判断:Self-Consistency 5〜10パス
- クリティカルな意思決定:Self-Consistency 20〜40パス(医療、法律など)
Tree of Thoughts:探索空間の体系的展開
2023年5月、Princeton大学とGoogle DeepMindの研究者らが発表した「Tree of Thoughts(ToT)」は、CoTをさらに発展させた手法です。単一の推論チェーンではなく、複数の可能性を木構造で展開し、最適パスを探索します。
Tree of Thoughtsの基本構造
ToTは、問題解決を「思考の木」として表現します。各ノードは「思考状態」を表し、エッジは「思考ステップ」を表します。
ToTのプロセス:
- 思考生成:現在の状態から可能な次のステップを複数生成(通常3〜5個)
- 思考評価:各ステップの有望性を評価(1〜10のスコア)
- 探索戦略:幅優先探索(BFS)、深さ優先探索(DFS)、ビームサーチなどを適用
- バックトラッキング:行き詰まったら前の状態に戻る
- 最適パス抽出:最も有望な経路を最終解とする
この手法は、囲碁AIで使われるMonte Carlo Tree Search(MCTS)に似ていますが、LLMのテキスト生成能力を活用している点が異なります。
ToTの驚異的な性能:Game of 24の例
Yao et al.(2023)は、「Game of 24」というパズルでToTを評価しました。これは、4つの数字と四則演算を使って24を作るゲームです(例:8, 3, 8, 3 → (8 ÷ 3 – 8 ÷ 3) × 24 = 0… 失敗)。
Game of 24での成功率:
- Standard Prompting:7.3%
- Chain of Thought:4.0%(CoTが逆効果のケース)
- Self-Consistency CoT:9.0%
- Tree of Thoughts:74.0%(+914%!)
ToTは他の手法を圧倒的に上回る性能を示しました。特に注目すべきは、通常のCoTが逆効果になっている点です。これは、一本道の推論では誤った方向に進んだ場合に修正できないためです。ToTのバックトラッキング機能が、この問題を解決しています。
ToTの実装コストと限界
ToTの最大の課題は、実装の複雑さとコストです。
ToTのコスト構造:
- 探索ノード数:深さ4、分岐数3の場合、最大81ノード(3^4)
- 各ノードで2回のLLM呼び出し:思考生成+評価
- 総LLM呼び出し:最大162回/問題
- コスト:通常のCoTの50〜200倍
このコスト構造により、ToTは研究や極めて高価値な問題解決には有効ですが、大規模な実務適用は困難です。
実務的には、以下のシナリオでのみToTを検討すべきです。
- 単一の問題解決に高いコストを投資できる(戦略的意思決定、研究開発)
- 他の手法では解決不可能な複雑性(多段階の試行錯誤が必要)
- バックトラッキングが本質的に重要(パズル、計画立案)
CoTの実務応用:成功事例と失敗事例
CoTとその発展形は、様々な実務領域で応用されています。成功事例と失敗事例から、効果的な適用条件を学びます。
成功事例1:医療診断支援システム
Stanford大学医学部の研究(2025)では、症状から鑑別診断を支援するシステムにCoTを適用しました。
システム構成:
- 入力:患者の症状、検査結果、病歴
- 手法:Few-Shot CoT + Self-Consistency(10パス)
- 出力:鑑別診断リスト(確率付き)+ 推論プロセス
結果:
- Top-3診断の正解率:Standard 68% → CoT 79% → SC 85%
- 医師の信頼度:推論プロセスの明示により+42%向上
- 特に効果的だった領域:稀な疾患の識別(+55%)、複雑な症候群(+38%)
この事例の成功要因は、推論プロセスの透明性です。医師は「なぜその診断か」を理解でき、AIの判断を検証できます。これは説明可能性(Explainability)の観点で極めて重要です。
成功事例2:法律文書分析
大手法律事務所(匿名)では、契約書レビューにCoTを導入しました。
タスク:
- M&A契約書から潜在的リスク条項を抽出
- 各条項のリスクレベルを評価(低・中・高)
- 修正提案を生成
手法:
- Few-Shot CoT(専門家が作成した3つの詳細な分析例を提示)
- 各条項ごとに段階的分析:条項の意図→潜在的リスク→判例参照→評価
結果:
- 重要リスクの検出率:人間のみ82% → AI+CoT 94%(見落とし-63%)
- 分析時間:平均6時間/契約 → 2時間/契約(-67%)
- コスト削減:年間$850K(弁護士時間の削減)
法律分野での成功は、ドメイン知識を含む高品質な例示が鍵でした。専門家が作成した詳細な分析プロセスをFew-Shot例として提示することで、専門的な推論パターンを再現できました。
失敗事例1:創造的ストーリー生成
あるゲーム会社が、RPGのクエストストーリー生成にCoTを試みましたが、失敗に終わりました。
問題点:
- 段階的な推論が創造性を阻害:「まずキャラクター設定、次にプロット、次に対話…」という機械的な流れ
- 予測可能で退屈なストーリー:人間が書いたストーリーの「多様性スコア」が8.2に対し、CoT生成は4.3
- コストだけが増大:通常の3倍のトークン、品質は劣化
この失敗から、創造性が求められるタスクにはCoTは不適という教訓が得られました。CoTは論理的・分析的タスクに特化した手法であり、直感的・創造的タスクには逆効果になることがあります。
失敗事例2:リアルタイムチャットボット
カスタマーサポートチャットボットにSelf-Consistency CoTを導入したケースでも失敗が報告されています。
問題点:
- レスポンス時間:通常1.2秒 → SC (10パス) 12秒(ユーザー離脱率+180%)
- コスト:APIコスト10倍で月額予算を大幅超過
- 精度向上は限定的:FAQ応答など単純タスクでは通常CoTで十分
この失敗は、タスクの複雑度とコストのミスマッチが原因です。高度なCoT手法は、それに見合う複雑さのタスクにのみ適用すべきです。
まとめ:CoTは「推論の可視化」、効果はタスク次第
Chain of Thought(CoT)プロンプティングは、LLMに推論プロセスを段階的に生成させることで、複雑な問題解決能力を引き出す革新的手法です。算数・数学問題では精度が最大228%向上し、人間の小学生レベルを超える性能を実現しました。
CoTが効く理由は、計算グラフの明示化、作業記憶の外部化、訓練データパターンの活性化という3つのメカニズムで説明されます。中間ステップを明示することで、モデルは長い推論を管理し、エラーを早期に発見・修正できます。
実務的には、Zero-Shot CoT(「Let’s think step by step」を追加するだけ)が最もコスト効率が高く、Few-Shot CoTは高精度が必要な場面で有効です。Self-Consistencyは複数の推論パスの多数決により信頼性を向上させますが、コストが5〜40倍になるため、クリティカルな意思決定にのみ適用すべきです。Tree of Thoughtsはさらに高度ですが、実装が複雑でコストも50〜200倍になり、実用性は限定的です。
CoTの効果はタスクの性質に大きく依存します。算数・論理推論では劇的な改善が見られる一方、常識推論や事実検索では効果が限定的で、創造的タスクでは逆効果になることもあります。医療診断や法律文書分析など、推論プロセスの透明性が重要な専門領域では大きな成功を収めていますが、リアルタイム性や創造性が求められる領域では不適です。
2026年現在、CoTはプロンプトエンジニアリングにおける最も重要な技術の一つとして確立されています。ただし、「推論が必要なタスク」という明確な適用条件を理解し、コストと効果のバランスを慎重に評価することが、成功の鍵となります。
著者:生成AI総合研究所編集部
生成AIの最新技術動向、実践的活用法、ビジネス応用事例を専門的に研究・発信する編集部。学術研究と実務経験を融合させた、信頼性の高い情報提供を目指しています。
生成AI、結局どう使う?を解決する
現場のための「導入・活用実践ガイド」
「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。
- 失敗しない「ツール選定比較表」
- 非専門家でもわかる「活用ステップ」
- 最低限知っておくべき「安全ルール」
- 現場が納得する「導入の進め方」
BUSINESS GUIDE