「パラメータ数が大きいほど賢い」という時代は終わりを告げた。Mixture of Experts (MoE) 技術の登場により、アクティブパラメータ数と計算効率の関係が複雑化する中、主要モデルのベンチマークデータから真の性能指標を解き明かします。
「LLM パラメータ数 比較」で検索してこのページにたどり着いた方へ。パラメータ数が大きい=高性能、というのは2023年までの常識です。2026年現在はMoE(Mixture of Experts)の普及により「総パラメータ数」と「アクティブパラメータ数(推論時に実際に稼働する数)」が分離し、単純な数字の比較では性能は測れません。本記事では、公開・推定情報をもとに主要LLM 20モデル超のパラメータ数・コンテキストウィンドウ・APIコストを一覧表で比較し、2026年のモデル選定に本当に必要な知識を整理します。
▶ 関連記事:ローカルLLM構築ガイドはこちら
パラメータ数とは何か?LLMの「サイズ」の正体

パラメータ数とは、ニューラルネットワークが持つ「学習可能な重み」の総数です。人間の脳におけるシナプスの数に相当すると考えると分かりやすいでしょう。各パラメータは、入力データをどのように処理すべきかを決定する数値で、学習プロセスを通じて最適化されます。
例えば、1750億パラメータのGPT-3は、1750億個の調整可能な数値を持っています。これらのパラメータは、Transformerアーキテクチャの各層(自己注意機構、フィードフォワードネットワーク)に分散配置され、複雑な言語パターンを学習します。
パラメータ数の内訳
LLMのパラメータは主に以下の要素に分散しています。
- 埋め込み層(単語を数値ベクトルに変換):全体の約5〜10%
- 自己注意機構(文脈理解の核心):約40〜50%
- フィードフォワードネットワーク(各単語の表現を変換):約40〜50%
- 出力層(最終的な予測を生成):約5〜10%
2026年の重要概念:「総パラメータ数」と「アクティブパラメータ数」
2026年現在、LLMのパラメータ数を語る際に不可欠な概念がMoE(Mixture of Experts)です。MoEアーキテクチャでは、モデル全体のパラメータ(総パラメータ数)のうち、1つの推論リクエストで実際に使われるのは一部だけです。この一部を「アクティブパラメータ数」と呼びます。
例えば、GPT-4oは総パラメータ数が推定1.76兆ですが、1回の推論で使われるアクティブパラメータは約2800億と推定されています。同様に、DeepSeek-V3は総パラメータ数が6710億ですが、アクティブパラメータは370億です。つまり、DeepSeek-V3は全体の約5.5%のパラメータだけで推論を行い、コスト効率と速度を両立しています。
この仕組みを理解せずに「パラメータ数が多い=高性能」と判断すると、コストや速度の面で誤った選択をする可能性があります。
【2026年最新】主要LLM パラメータ数 比較一覧表
2026年6月時点の主要LLMについて、パラメータ数・アーキテクチャ・コンテキストウィンドウ・APIコストを一覧で比較します。商用モデルの多くはパラメータ数を非公開としていますが、公開情報と信頼性の高い推定値をもとに整理しました。
商用クローズドモデル
| モデル | 開発元 | 総パラメータ数 | アクティブパラメータ数 | アーキテクチャ | コンテキスト長 | API入力コスト($/1Mトークン) | API出力コスト($/1Mトークン) |
|---|---|---|---|---|---|---|---|
| GPT-4o | OpenAI | 非公開(推定1.76T) | 推定280B | MoE | 128K | $2.50 | $10.00 |
| GPT-4o mini | OpenAI | 非公開(推定17.5B) | 推定17.5B | Dense | 128K | $0.15 | $0.60 |
| GPT-4o.1 | OpenAI | 非公開 | 非公開 | 非公開 | 1M | $2.00 | $8.00 |
| o3 | OpenAI | 非公開 | 非公開 | 非公開 | 200K | $2.00 | $8.00 |
| o4-mini | OpenAI | 非公開 | 非公開 | 非公開 | 200K | $1.10 | $4.40 |
| Claude Opus 4 | Anthropic | 非公開 | 非公開 | 非公開 | 200K | $15.00 | $75.00 |
| Claude Sonnet 4 | Anthropic | 非公開 | 非公開 | 非公開 | 200K | $3.00 | $15.00 |
| Claude Haiku 3.5 | Anthropic | 非公開 | 非公開 | 非公開 | 200K | $0.80 | $4.00 |
| Gemini 2.5 Pro | 非公開 | 非公開 | MoE(推定) | 1M | $1.25 | $10.00 | |
| Gemini 2.5 Flash | 非公開 | 非公開 | MoE(推定) | 1M | $0.15 | $0.60 | |
| Grok 3 | xAI | 非公開 | 非公開 | 非公開 | 131K | $3.00 | $15.00 |
オープンソース/オープンウェイトモデル
| モデル | 開発元 | 総パラメータ数 | アクティブパラメータ数 | アーキテクチャ | コンテキスト長 | ライセンス |
|---|---|---|---|---|---|---|
| Llama 3.3 70B | Meta | 70B | 70B(Dense) | Dense Transformer | 128K | Llama 3.3 Community |
| Llama 3.1 405B | Meta | 405B | 405B(Dense) | Dense Transformer | 128K | Llama 3.1 Community |
| Llama 4 Scout | Meta | 109B | 17B | MoE(16エキスパート) | 10M | Llama 4 Community |
| Llama 4 Maverick | Meta | 400B | 17B | MoE(128エキスパート) | 1M | Llama 4 Community |
| DeepSeek-V3 | DeepSeek | 671B | 37B | MoE(257エキスパート) | 128K | MIT |
| DeepSeek-R1 | DeepSeek | 671B | 37B | MoE | 128K | MIT |
| Qwen3-235B-A22B | Alibaba | 235B | 22B | MoE | 128K | Apache 2.0 |
| Qwen3-30B-A3B | Alibaba | 30B | 3B | MoE | 128K | Apache 2.0 |
| Qwen3-32B | Alibaba | 32B | 32B(Dense) | Dense | 128K | Apache 2.0 |
| Mistral Large 2 | Mistral AI | 123B | 123B(Dense) | Dense | 128K | Mistral Research License |
| Mixtral 8x22B | Mistral AI | 141B | 39B | MoE(8エキスパート) | 64K | Apache 2.0 |
| GLM-4.5 | Zhipu AI | 355B | 32B | MoE | 128K | オープン |
| Phi-4 | Microsoft | 14B | 14B(Dense) | Dense | 16K | MIT |
| Gemma 3 27B | 27B | 27B(Dense) | Dense | 128K | Gemma License |
注:「B」は10億(Billion)、「T」は1兆(Trillion)。商用モデルの推定値はリーク情報や研究者の分析に基づくものであり、公式発表ではありません。APIコストは2026年6月時点の公式料金表に基づきます。
▶ 関連記事:プロンプトエンジニアリング完全ガイドはこちら
コンテキストウィンドウ比較:パラメータ数より重要な指標
2026年のモデル選定で、パラメータ数以上に実務的に重要なのがコンテキストウィンドウ(一度に処理できるトークン数)です。以下に主要モデルのコンテキスト長を比較します。
| コンテキスト長 | 対応モデル | 日本語の目安 | 主な用途 |
|---|---|---|---|
| 10M トークン | Llama 4 Scout | 約500万文字(書籍20冊分) | 超長文コードベース分析、大規模データセット処理 |
| 1M トークン | Gemini 2.5 Pro/Flash、GPT-4o.1、Llama 4 Maverick | 約50万文字(書籍2〜3冊分) | 長編レポート分析、契約書一括レビュー |
| 200K トークン | Claude Opus/Sonnet 4、o3、o4-mini | 約10万文字 | 論文全文分析、長文翻訳 |
| 128K トークン | GPT-4o、Llama 3.x、DeepSeek-V3、Qwen3 | 約6万文字 | 通常のビジネス文書処理、チャット |
| 64K トークン | Mixtral 8x22B | 約3万文字 | 中規模の文書処理 |
| 16K トークン | Phi-4 | 約8000文字 | 短文タスク、分類、要約 |
コンテキストウィンドウが大きいほど一度に多くの情報を処理できますが、トークン数に比例してAPIコストも増加します。実務では「必要十分な長さ」を選ぶことがコスト最適化の鍵です。
パラメータ数と性能の相関関係:データから見える真実
パラメータ数と性能の関係について、2026年時点で分かっていることを整理します。
非線形な相関関係
パラメータ数と性能の関係は「対数的」です。初期段階(10億→100億パラメータ)では大きな性能向上が見られますが、規模が大きくなるにつれて(1000億→1兆パラメータ)、性能向上の幅は減少します。
例えば、Llama 3では8Bから70Bへ約9倍のパラメータ増加で、MMLUスコアが66.6%から79.5%へ約13ポイント向上しています。一方、70Bから405Bへ約6倍の増加では、79.5%から85.2%へ約6ポイントの向上にとどまります。
この非線形性は「スケーリング則(Scaling Laws)」として理論化されています。OpenAIの研究によると、性能はパラメータ数の対数に比例し、損失(誤差)はL ∝ N^(-α)(Nはパラメータ数、αは約0.076)という関係式で表されます。
パラメータ数だけでは性能は決まらない
2026年のLLM市場を見ると、パラメータ数と性能が必ずしも比例しない事例が多数あります。
- Qwen3-30B-A3B:総パラメータ30Bのうち実際に稼働するのは3Bだけだが、MoE技術により同サイズのDenseモデルを大幅に上回る性能を実現
- DeepSeek-V3:671Bの総パラメータに対し37Bのみアクティブ。GPT-4oに匹敵するベンチマークスコアを約1/10のコストで達成
- Phi-4:わずか14Bのパラメータで、数学・論理タスクでは70B級モデルと同等の性能を発揮。高品質な合成データによる学習が要因
- Claude Sonnet 4:パラメータ数非公開だが、コーディングベンチマーク(SWE-Bench)ではパラメータ数が推定で遥かに大きいGPT-4oを上回る
これらの事例は、アーキテクチャの設計、学習データの質と量、学習手法の3つが、パラメータ数と同等以上に性能を左右することを示しています。
MoE vs Dense:2026年のアーキテクチャ比較
2026年のLLM開発における最大のアーキテクチャ的分岐点は、MoE(Mixture of Experts)とDense(密結合)の選択です。
| 比較項目 | MoE(Mixture of Experts) | Dense(密結合) |
|---|---|---|
| 仕組み | 複数の「エキスパート」ネットワークを用意し、入力に応じて一部のみ稼働 | すべてのパラメータを毎回の推論で使用 |
| 代表モデル | GPT-4o、DeepSeek-V3、Mixtral、Qwen3 MoE系、Llama 4 | Llama 3.x、Mistral Large 2、Phi-4、Gemma 3 |
| 推論コスト | 総パラメータ数の割に低コスト | パラメータ数に比例して高コスト |
| 推論速度 | アクティブパラメータが少ないため高速 | 全パラメータを使うため大規模モデルでは低速 |
| VRAM要件 | 全エキスパートをメモリに載せる必要があり、総パラメータ数分のVRAMが必要 | パラメータ数に比例 |
| ローカル運用 | VRAMがボトルネック。671BのDeepSeek-V3は量子化しても大容量GPU必須 | 14BのPhi-4なら16GB VRAM(RTX 4060程度)で動作 |
| 適したケース | クラウドAPI利用、高性能が必要だがコスト重視 | ローカル運用、シンプルな構成、小中規模モデル |
推論速度・コストとパラメータ数のトレードオフ
パラメータ数が増えると性能は向上しますが、推論速度は低下し、コストは増加します。2026年時点の実用的な比較を示します。
推論速度の技術的要因
推論速度は主に以下の要因で決まります。
- アクティブパラメータ数:MoEモデルでは総パラメータ数ではなくアクティブ数が速度に影響
- メモリ帯域幅:GPU メモリとの間でデータを移動する速度の制約
- バッチサイズ:同時に処理できるリクエスト数
- 量子化レベル:パラメータの精度(FP16/INT8/INT4など)
セルフホスト時のコスト比較
企業が自社でモデルを運用する場合、モデルサイズによってハードウェア要件とコストが大きく変わります。
| モデル規模 | 代表モデル | 必要VRAM(FP16) | 推奨GPU構成 | 初期投資目安 | 月間電力コスト |
|---|---|---|---|---|---|
| 7〜14B(小型) | Phi-4、Qwen3-14B | 28GB | RTX 4090 1枚 or A100 1枚 | 約30〜200万円 | 約1〜3万円 |
| 30〜70B(中型) | Llama 3.3 70B、Qwen3-32B | 64〜140GB | A100 80GB × 2〜4枚 | 約600〜1200万円 | 約10〜20万円 |
| 100〜235B(大型MoE) | Qwen3-235B、Mixtral 8x22B | 282〜470GB | H100 80GB × 4〜8枚 | 約2400〜4800万円 | 約30〜60万円 |
| 400〜671B(超大型MoE) | DeepSeek-V3、Llama 4 Maverick | 800GB〜1.3TB | H100 80GB × 16枚以上 | 約6400万円〜 | 約80万円〜 |
注:INT4量子化を行えばVRAM要件は約1/4に削減可能ですが、性能は若干低下します。
API利用 vs セルフホスト:コスト損益分岐点
「APIを使うべきか、自社でホストすべきか」はよくある質問です。目安として、月間100万トークン以下の利用量であればAPI一択です。月間1億トークン以上の利用がある場合、70B級モデルのセルフホストが年間ベースでコスト優位になるケースが出てきます。ただし、運用人材・メンテナンスコストも考慮する必要があります。
スケーリング則の限界:「大きければ良い」は本当か?
2020年にOpenAIが発表した「スケーリング則」は、モデルサイズ・データ量・計算量を増やせば性能が予測可能に向上することを示しました。しかし、2026年現在、この法則には限界が見え始めています。
スケーリング則の基本
スケーリング則は以下の関係式で表されます。
- 損失 L ∝ N^(-0.076)(Nはパラメータ数)
- 損失 L ∝ D^(-0.095)(Dは学習データ量)
- 損失 L ∝ C^(-0.050)(Cは計算量)
実際、GPT-2(15億)からGPT-3(1750億)への拡大で性能は大きく向上しました。GPT-4o(推定1.76兆)でもさらなる向上が見られ、「モデルを大きくすれば良い」という信念が広まりました。
限界の兆候
しかし、2026年時点で複数の限界が顕在化しています。
1. 収穫逓減の加速
GPT-4oからGPT-4o.1への性能向上幅は、GPT-3からGPT-4oほど大きくありません。パラメータ数を2倍にしても、ベンチマークスコアの改善は数ポイントにとどまるケースが増えています。
2. 高品質データの枯渇
高品質なインターネットテキストは有限であり、2026年時点で既に大部分が使用されています。合成データ(AIが生成したデータ)で補う手法が広まっていますが、「モデル崩壊」(合成データの再学習による品質低下)のリスクが指摘されています。
3. エネルギー制約
最先端モデルの学習には数百メガワット級の電力が必要です。各社がデータセンター拡張を進めていますが、電力供給がボトルネックになりつつあります。
4. ベンチマークの飽和
MMLU(知識テスト)では、トップモデルが人間のエキスパートレベル(約90%)に接近し、差別化が困難になっています。新しいベンチマーク(GPQA、ARC-AGI、SWE-Bench Verified)への移行が進んでいます。
ポストスケーリング時代のアプローチ
スケーリング則の限界を受けて、以下の新しいアプローチが主流になりつつあります。
- MoE(Mixture of Experts):複数の専門モデルを組み合わせ、効率的に大規模化(GPT-4o、DeepSeek-V3、Llama 4)
- テスト時計算の増加(Test-time Compute):推論時により多くの計算を使う手法。o3やDeepSeek-R1のような「推論モデル」がChain-of-Thoughtで深く考えることで、モデルサイズを抑えつつ性能を向上
- データ効率の改善:合成データの高品質化、カリキュラム学習、データフィルタリングの高度化
- アーキテクチャ革新:State Space Models(Mamba)やRetentive Networksなど、Transformerを超えるアーキテクチャの研究が進行中
タスク別の最適モデル選定ガイド
すべてのタスクに最大のモデルが最適とは限りません。タスクの性質に応じた最適なモデルサイズと推奨モデルを整理します。
| タスク | 推奨モデル規模 | 推奨モデル例 | 選定理由 |
|---|---|---|---|
| 単純な分類・要約 | 3〜14B | GPT-4o mini、Gemini 2.5 Flash、Phi-4 | 高速・低コスト。精度も十分 |
| 一般的な質問応答・チャット | 14〜70B | Claude Sonnet 4、GPT-4o、Qwen3-32B | 性能とコストのバランスが良い |
| 高度なコード生成 | 70B〜 | Claude Opus 4、o3、DeepSeek-V3 | 複雑なロジック理解とバグ検出に大規模モデルが有利 |
| 長文書分析(契約書・論文) | コンテキスト長重視 | Gemini 2.5 Pro(1M)、Claude Opus 4(200K) | 文書全体を一度に処理する必要がある |
| 数学・論理推論 | 推論モデル推奨 | o3、o4-mini、DeepSeek-R1 | Chain-of-Thought推論で精度が大幅向上 |
| リアルタイムチャット | 3〜14B | GPT-4o mini、Gemini 2.5 Flash | 低レイテンシが必須。小型モデルが適切 |
| ローカル運用(オフライン) | 7〜32B | Llama 3.3 70B(量子化)、Qwen3-32B、Phi-4 | 単一GPU or 小規模GPU構成で動作可能 |
| マルチモーダル(画像+テキスト) | 用途次第 | GPT-4o、Gemini 2.5 Pro、Claude Sonnet 4 | 画像理解が必要なタスク |
2026年のトレンド:パラメータ数競争からの転換
2026年現在、LLM開発のトレンドは「パラメータ数の最大化」から「効率性と実用性の最適化」へ明確にシフトしています。
効率化の潮流
2025年後半から2026年にかけて、効率化のトレンドが加速しています。
- 小型高性能モデルの台頭:Phi-4(14B)やQwen3-30B-A3B(アクティブ3B)は、高品質データとアーキテクチャ最適化により、パラメータ数が10倍以上のモデルに匹敵する性能を一部タスクで実現
- 推論モデルの進化:o3やDeepSeek-R1のように、推論時に「考える時間」を増やすことで性能を引き上げる手法が主流に。モデルサイズの拡大ではなく、推論プロセスの改善による性能向上
- MoEの標準化:Llama 4でMetaもMoEに移行。2026年のフロンティアモデルはほぼすべてMoEアーキテクチャを採用
APIコスト競争の激化
パラメータ数競争に代わり、2026年のLLM市場ではAPIコスト競争が激化しています。GPT-4o miniは入力$0.15/1Mトークン、Gemini 2.5 Flashも$0.15/1Mトークンと、2024年のGPT-4 Turboの約1/60の価格です。DeepSeekのオープンソースモデルが商用モデルの価格を大きく下げる「価格破壊」の起点となりました。
専門モデル・エージェント化
汎用の巨大モデルに加え、特定タスクに特化したモデルの開発が加速しています。コーディング特化のCodeLlamaやDeepSeek-Coder、数学特化のQwen-Math、さらにはAIエージェントとしてツールを使いこなすモデル(Claude Opus 4のコンピュータ操作、o3のツール連携)など、「何でもできる巨大モデル」より「特定タスクで確実に成果を出すモデル」が実務で重視されています。
まとめ:パラメータ数は「手段」であり「目的」ではない
本記事で解説した内容を要約します。
- パラメータ数と性能は対数的な相関:増やすほど向上するが、収穫は逓減する
- MoE時代は「アクティブパラメータ数」が重要:総パラメータ数だけ見ても推論コストや速度は予測できない
- コンテキストウィンドウが実務的に重要:長文処理が必要ならパラメータ数よりコンテキスト長で選ぶ
- アーキテクチャ・学習データ・学習手法が性能を左右:14BのPhi-4が70Bモデルと同等の性能を出す例もある
- 2026年のトレンドは効率化と推論強化:モデルの巨大化ではなく、MoE・推論モデル・データ効率化が主戦場
企業がLLMを選択する際は、パラメータ数ではなく、タスクの要件(精度・速度・コスト)、コンテキスト長の要件、ローカル運用かAPI利用か、データプライバシー要件を総合的に評価して判断しましょう。
著者:生成AI総合研究所編集部
📚 あわせて読みたい
各種業界のAI導入事例のご共有・ご相談はこちらから
無駄な工数を削減し、コア業務に集中できる環境を構築します。
生成AI、結局どう使う?を解決する
現場のための「導入・活用実践ガイド」
「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。
- 失敗しない「ツール選定比較表」
- 非専門家でもわかる「活用ステップ」
- 最低限知っておくべき「安全ルール」
- 現場が納得する「導入の進め方」
BUSINESS GUIDE
この記事が役に立ったら、同僚にもシェアしてください