LLM（大規模言語モデル）のパラメータ数と性能の相関関係｜主要モデル比較データ

最終更新: 2026年6月6日

「パラメータ数が大きいほど賢い」という時代は終わりを告げた。Mixture of Experts (MoE) 技術の登場により、アクティブパラメータ数と計算効率の関係が複雑化する中、主要モデルのベンチマークデータから真の性能指標を解き明かします。

「LLM パラメータ数比較」で検索してこのページにたどり着いた方へ。パラメータ数が大きい＝高性能、というのは2023年までの常識です。2026年現在はMoE（Mixture of Experts）の普及により「総パラメータ数」と「アクティブパラメータ数（推論時に実際に稼働する数）」が分離し、単純な数字の比較では性能は測れません。本記事では、公開・推定情報をもとに主要LLM 20モデル超のパラメータ数・コンテキストウィンドウ・APIコストを一覧表で比較し、2026年のモデル選定に本当に必要な知識を整理します。

▶ 関連記事：ローカルLLM構築ガイドはこちら

パラメータ数とは何か？LLMの「サイズ」の正体
1. パラメータ数の内訳
2. 2026年の重要概念：「総パラメータ数」と「アクティブパラメータ数」
【2026年最新】主要LLM パラメータ数比較一覧表
1. 商用クローズドモデル
2. オープンソース／オープンウェイトモデル
コンテキストウィンドウ比較：パラメータ数より重要な指標
パラメータ数と性能の相関関係：データから見える真実
1. 非線形な相関関係
2. パラメータ数だけでは性能は決まらない
MoE vs Dense：2026年のアーキテクチャ比較
推論速度・コストとパラメータ数のトレードオフ
スケーリング則の限界：「大きければ良い」は本当か？
タスク別の最適モデル選定ガイド
2026年のトレンド：パラメータ数競争からの転換
まとめ：パラメータ数は「手段」であり「目的」ではない
1. 📚 あわせて読みたい

パラメータ数とは何か？LLMの「サイズ」の正体

パラメータ数とは、ニューラルネットワークが持つ「学習可能な重み」の総数です。人間の脳におけるシナプスの数に相当すると考えると分かりやすいでしょう。各パラメータは、入力データをどのように処理すべきかを決定する数値で、学習プロセスを通じて最適化されます。

例えば、1750億パラメータのGPT-3は、1750億個の調整可能な数値を持っています。これらのパラメータは、Transformerアーキテクチャの各層（自己注意機構、フィードフォワードネットワーク）に分散配置され、複雑な言語パターンを学習します。

パラメータ数の内訳

LLMのパラメータは主に以下の要素に分散しています。

埋め込み層（単語を数値ベクトルに変換）：全体の約5〜10%
自己注意機構（文脈理解の核心）：約40〜50%
フィードフォワードネットワーク（各単語の表現を変換）：約40〜50%
出力層（最終的な予測を生成）：約5〜10%

2026年の重要概念：「総パラメータ数」と「アクティブパラメータ数」

2026年現在、LLMのパラメータ数を語る際に不可欠な概念がMoE（Mixture of Experts）です。MoEアーキテクチャでは、モデル全体のパラメータ（総パラメータ数）のうち、1つの推論リクエストで実際に使われるのは一部だけです。この一部を「アクティブパラメータ数」と呼びます。

例えば、GPT-4oは総パラメータ数が推定1.76兆ですが、1回の推論で使われるアクティブパラメータは約2800億と推定されています。同様に、DeepSeek-V3は総パラメータ数が6710億ですが、アクティブパラメータは370億です。つまり、DeepSeek-V3は全体の約5.5%のパラメータだけで推論を行い、コスト効率と速度を両立しています。

この仕組みを理解せずに「パラメータ数が多い＝高性能」と判断すると、コストや速度の面で誤った選択をする可能性があります。

【2026年最新】主要LLM パラメータ数比較一覧表

2026年6月時点の主要LLMについて、パラメータ数・アーキテクチャ・コンテキストウィンドウ・APIコストを一覧で比較します。商用モデルの多くはパラメータ数を非公開としていますが、公開情報と信頼性の高い推定値をもとに整理しました。

商用クローズドモデル

モデル	開発元	総パラメータ数	アクティブパラメータ数	アーキテクチャ	コンテキスト長	API入力コスト（$/1Mトークン）	API出力コスト（$/1Mトークン）
GPT-4o	OpenAI	非公開（推定1.76T）	推定280B	MoE	128K	$2.50	$10.00
GPT-4o mini	OpenAI	非公開（推定17.5B）	推定17.5B	Dense	128K	$0.15	$0.60
GPT-4o.1	OpenAI	非公開	非公開	非公開	1M	$2.00	$8.00
o3	OpenAI	非公開	非公開	非公開	200K	$2.00	$8.00
o4-mini	OpenAI	非公開	非公開	非公開	200K	$1.10	$4.40
Claude Opus 4	Anthropic	非公開	非公開	非公開	200K	$15.00	$75.00
Claude Sonnet 4	Anthropic	非公開	非公開	非公開	200K	$3.00	$15.00
Claude Haiku 3.5	Anthropic	非公開	非公開	非公開	200K	$0.80	$4.00
Gemini 2.5 Pro	Google	非公開	非公開	MoE（推定）	1M	$1.25	$10.00
Gemini 2.5 Flash	Google	非公開	非公開	MoE（推定）	1M	$0.15	$0.60
Grok 3	xAI	非公開	非公開	非公開	131K	$3.00	$15.00

オープンソース／オープンウェイトモデル

モデル	開発元	総パラメータ数	アクティブパラメータ数	アーキテクチャ	コンテキスト長	ライセンス
Llama 3.3 70B	Meta	70B	70B（Dense）	Dense Transformer	128K	Llama 3.3 Community
Llama 3.1 405B	Meta	405B	405B（Dense）	Dense Transformer	128K	Llama 3.1 Community
Llama 4 Scout	Meta	109B	17B	MoE（16エキスパート）	10M	Llama 4 Community
Llama 4 Maverick	Meta	400B	17B	MoE（128エキスパート）	1M	Llama 4 Community
DeepSeek-V3	DeepSeek	671B	37B	MoE（257エキスパート）	128K	MIT
DeepSeek-R1	DeepSeek	671B	37B	MoE	128K	MIT
Qwen3-235B-A22B	Alibaba	235B	22B	MoE	128K	Apache 2.0
Qwen3-30B-A3B	Alibaba	30B	3B	MoE	128K	Apache 2.0
Qwen3-32B	Alibaba	32B	32B（Dense）	Dense	128K	Apache 2.0
Mistral Large 2	Mistral AI	123B	123B（Dense）	Dense	128K	Mistral Research License
Mixtral 8x22B	Mistral AI	141B	39B	MoE（8エキスパート）	64K	Apache 2.0
GLM-4.5	Zhipu AI	355B	32B	MoE	128K	オープン
Phi-4	Microsoft	14B	14B（Dense）	Dense	16K	MIT
Gemma 3 27B	Google	27B	27B（Dense）	Dense	128K	Gemma License

注：「B」は10億（Billion）、「T」は1兆（Trillion）。商用モデルの推定値はリーク情報や研究者の分析に基づくものであり、公式発表ではありません。APIコストは2026年6月時点の公式料金表に基づきます。

▶ 関連記事：プロンプトエンジニアリング完全ガイドはこちら

コンテキストウィンドウ比較：パラメータ数より重要な指標

2026年のモデル選定で、パラメータ数以上に実務的に重要なのがコンテキストウィンドウ（一度に処理できるトークン数）です。以下に主要モデルのコンテキスト長を比較します。

コンテキスト長	対応モデル	日本語の目安	主な用途
10M トークン	Llama 4 Scout	約500万文字（書籍20冊分）	超長文コードベース分析、大規模データセット処理
1M トークン	Gemini 2.5 Pro/Flash、GPT-4o.1、Llama 4 Maverick	約50万文字（書籍2〜3冊分）	長編レポート分析、契約書一括レビュー
200K トークン	Claude Opus/Sonnet 4、o3、o4-mini	約10万文字	論文全文分析、長文翻訳
128K トークン	GPT-4o、Llama 3.x、DeepSeek-V3、Qwen3	約6万文字	通常のビジネス文書処理、チャット
64K トークン	Mixtral 8x22B	約3万文字	中規模の文書処理
16K トークン	Phi-4	約8000文字	短文タスク、分類、要約

コンテキストウィンドウが大きいほど一度に多くの情報を処理できますが、トークン数に比例してAPIコストも増加します。実務では「必要十分な長さ」を選ぶことがコスト最適化の鍵です。

パラメータ数と性能の相関関係：データから見える真実

パラメータ数と性能の関係について、2026年時点で分かっていることを整理します。

非線形な相関関係

パラメータ数と性能の関係は「対数的」です。初期段階（10億→100億パラメータ）では大きな性能向上が見られますが、規模が大きくなるにつれて（1000億→1兆パラメータ）、性能向上の幅は減少します。

例えば、Llama 3では8Bから70Bへ約9倍のパラメータ増加で、MMLUスコアが66.6%から79.5%へ約13ポイント向上しています。一方、70Bから405Bへ約6倍の増加では、79.5%から85.2%へ約6ポイントの向上にとどまります。

この非線形性は「スケーリング則（Scaling Laws）」として理論化されています。OpenAIの研究によると、性能はパラメータ数の対数に比例し、損失（誤差）はL ∝ N^(-α)（Nはパラメータ数、αは約0.076）という関係式で表されます。

パラメータ数だけでは性能は決まらない

2026年のLLM市場を見ると、パラメータ数と性能が必ずしも比例しない事例が多数あります。

Qwen3-30B-A3B：総パラメータ30Bのうち実際に稼働するのは3Bだけだが、MoE技術により同サイズのDenseモデルを大幅に上回る性能を実現
DeepSeek-V3：671Bの総パラメータに対し37Bのみアクティブ。GPT-4oに匹敵するベンチマークスコアを約1/10のコストで達成
Phi-4：わずか14Bのパラメータで、数学・論理タスクでは70B級モデルと同等の性能を発揮。高品質な合成データによる学習が要因
Claude Sonnet 4：パラメータ数非公開だが、コーディングベンチマーク（SWE-Bench）ではパラメータ数が推定で遥かに大きいGPT-4oを上回る

これらの事例は、アーキテクチャの設計、学習データの質と量、学習手法の3つが、パラメータ数と同等以上に性能を左右することを示しています。

MoE vs Dense：2026年のアーキテクチャ比較

2026年のLLM開発における最大のアーキテクチャ的分岐点は、MoE（Mixture of Experts）とDense（密結合）の選択です。

比較項目	MoE（Mixture of Experts）	Dense（密結合）
仕組み	複数の「エキスパート」ネットワークを用意し、入力に応じて一部のみ稼働	すべてのパラメータを毎回の推論で使用
代表モデル	GPT-4o、DeepSeek-V3、Mixtral、Qwen3 MoE系、Llama 4	Llama 3.x、Mistral Large 2、Phi-4、Gemma 3
推論コスト	総パラメータ数の割に低コスト	パラメータ数に比例して高コスト
推論速度	アクティブパラメータが少ないため高速	全パラメータを使うため大規模モデルでは低速
VRAM要件	全エキスパートをメモリに載せる必要があり、総パラメータ数分のVRAMが必要	パラメータ数に比例
ローカル運用	VRAMがボトルネック。671BのDeepSeek-V3は量子化しても大容量GPU必須	14BのPhi-4なら16GB VRAM（RTX 4060程度）で動作
適したケース	クラウドAPI利用、高性能が必要だがコスト重視	ローカル運用、シンプルな構成、小中規模モデル

推論速度・コストとパラメータ数のトレードオフ

パラメータ数が増えると性能は向上しますが、推論速度は低下し、コストは増加します。2026年時点の実用的な比較を示します。

推論速度の技術的要因

推論速度は主に以下の要因で決まります。

アクティブパラメータ数：MoEモデルでは総パラメータ数ではなくアクティブ数が速度に影響
メモリ帯域幅：GPU メモリとの間でデータを移動する速度の制約
バッチサイズ：同時に処理できるリクエスト数
量子化レベル：パラメータの精度（FP16/INT8/INT4など）

セルフホスト時のコスト比較

企業が自社でモデルを運用する場合、モデルサイズによってハードウェア要件とコストが大きく変わります。

モデル規模	代表モデル	必要VRAM（FP16）	推奨GPU構成	初期投資目安	月間電力コスト
7〜14B（小型）	Phi-4、Qwen3-14B	28GB	RTX 4090 1枚 or A100 1枚	約30〜200万円	約1〜3万円
30〜70B（中型）	Llama 3.3 70B、Qwen3-32B	64〜140GB	A100 80GB × 2〜4枚	約600〜1200万円	約10〜20万円
100〜235B（大型MoE）	Qwen3-235B、Mixtral 8x22B	282〜470GB	H100 80GB × 4〜8枚	約2400〜4800万円	約30〜60万円
400〜671B（超大型MoE）	DeepSeek-V3、Llama 4 Maverick	800GB〜1.3TB	H100 80GB × 16枚以上	約6400万円〜	約80万円〜

注：INT4量子化を行えばVRAM要件は約1/4に削減可能ですが、性能は若干低下します。

API利用 vs セルフホスト：コスト損益分岐点

「APIを使うべきか、自社でホストすべきか」はよくある質問です。目安として、月間100万トークン以下の利用量であればAPI一択です。月間1億トークン以上の利用がある場合、70B級モデルのセルフホストが年間ベースでコスト優位になるケースが出てきます。ただし、運用人材・メンテナンスコストも考慮する必要があります。

スケーリング則の限界：「大きければ良い」は本当か？

2020年にOpenAIが発表した「スケーリング則」は、モデルサイズ・データ量・計算量を増やせば性能が予測可能に向上することを示しました。しかし、2026年現在、この法則には限界が見え始めています。

スケーリング則の基本

スケーリング則は以下の関係式で表されます。

損失 L ∝ N^(-0.076)（Nはパラメータ数）
損失 L ∝ D^(-0.095)（Dは学習データ量）
損失 L ∝ C^(-0.050)（Cは計算量）

実際、GPT-2（15億）からGPT-3（1750億）への拡大で性能は大きく向上しました。GPT-4o（推定1.76兆）でもさらなる向上が見られ、「モデルを大きくすれば良い」という信念が広まりました。

限界の兆候

しかし、2026年時点で複数の限界が顕在化しています。

1. 収穫逓減の加速
GPT-4oからGPT-4o.1への性能向上幅は、GPT-3からGPT-4oほど大きくありません。パラメータ数を2倍にしても、ベンチマークスコアの改善は数ポイントにとどまるケースが増えています。

2. 高品質データの枯渇
高品質なインターネットテキストは有限であり、2026年時点で既に大部分が使用されています。合成データ（AIが生成したデータ）で補う手法が広まっていますが、「モデル崩壊」（合成データの再学習による品質低下）のリスクが指摘されています。

3. エネルギー制約
最先端モデルの学習には数百メガワット級の電力が必要です。各社がデータセンター拡張を進めていますが、電力供給がボトルネックになりつつあります。

4. ベンチマークの飽和
MMLU（知識テスト）では、トップモデルが人間のエキスパートレベル（約90%）に接近し、差別化が困難になっています。新しいベンチマーク（GPQA、ARC-AGI、SWE-Bench Verified）への移行が進んでいます。

ポストスケーリング時代のアプローチ

スケーリング則の限界を受けて、以下の新しいアプローチが主流になりつつあります。

MoE（Mixture of Experts）：複数の専門モデルを組み合わせ、効率的に大規模化（GPT-4o、DeepSeek-V3、Llama 4）
テスト時計算の増加（Test-time Compute）：推論時により多くの計算を使う手法。o3やDeepSeek-R1のような「推論モデル」がChain-of-Thoughtで深く考えることで、モデルサイズを抑えつつ性能を向上
データ効率の改善：合成データの高品質化、カリキュラム学習、データフィルタリングの高度化
アーキテクチャ革新：State Space Models（Mamba）やRetentive Networksなど、Transformerを超えるアーキテクチャの研究が進行中

タスク別の最適モデル選定ガイド

すべてのタスクに最大のモデルが最適とは限りません。タスクの性質に応じた最適なモデルサイズと推奨モデルを整理します。

タスク	推奨モデル規模	推奨モデル例	選定理由
単純な分類・要約	3〜14B	GPT-4o mini、Gemini 2.5 Flash、Phi-4	高速・低コスト。精度も十分
一般的な質問応答・チャット	14〜70B	Claude Sonnet 4、GPT-4o、Qwen3-32B	性能とコストのバランスが良い
高度なコード生成	70B〜	Claude Opus 4、o3、DeepSeek-V3	複雑なロジック理解とバグ検出に大規模モデルが有利
長文書分析（契約書・論文）	コンテキスト長重視	Gemini 2.5 Pro（1M）、Claude Opus 4（200K）	文書全体を一度に処理する必要がある
数学・論理推論	推論モデル推奨	o3、o4-mini、DeepSeek-R1	Chain-of-Thought推論で精度が大幅向上
リアルタイムチャット	3〜14B	GPT-4o mini、Gemini 2.5 Flash	低レイテンシが必須。小型モデルが適切
ローカル運用（オフライン）	7〜32B	Llama 3.3 70B（量子化）、Qwen3-32B、Phi-4	単一GPU or 小規模GPU構成で動作可能
マルチモーダル（画像+テキスト）	用途次第	GPT-4o、Gemini 2.5 Pro、Claude Sonnet 4	画像理解が必要なタスク

2026年のトレンド：パラメータ数競争からの転換

2026年現在、LLM開発のトレンドは「パラメータ数の最大化」から「効率性と実用性の最適化」へ明確にシフトしています。

効率化の潮流

2025年後半から2026年にかけて、効率化のトレンドが加速しています。

小型高性能モデルの台頭：Phi-4（14B）やQwen3-30B-A3B（アクティブ3B）は、高品質データとアーキテクチャ最適化により、パラメータ数が10倍以上のモデルに匹敵する性能を一部タスクで実現
推論モデルの進化：o3やDeepSeek-R1のように、推論時に「考える時間」を増やすことで性能を引き上げる手法が主流に。モデルサイズの拡大ではなく、推論プロセスの改善による性能向上
MoEの標準化：Llama 4でMetaもMoEに移行。2026年のフロンティアモデルはほぼすべてMoEアーキテクチャを採用

APIコスト競争の激化

パラメータ数競争に代わり、2026年のLLM市場ではAPIコスト競争が激化しています。GPT-4o miniは入力$0.15/1Mトークン、Gemini 2.5 Flashも$0.15/1Mトークンと、2024年のGPT-4 Turboの約1/60の価格です。DeepSeekのオープンソースモデルが商用モデルの価格を大きく下げる「価格破壊」の起点となりました。

専門モデル・エージェント化

汎用の巨大モデルに加え、特定タスクに特化したモデルの開発が加速しています。コーディング特化のCodeLlamaやDeepSeek-Coder、数学特化のQwen-Math、さらにはAIエージェントとしてツールを使いこなすモデル（Claude Opus 4のコンピュータ操作、o3のツール連携）など、「何でもできる巨大モデル」より「特定タスクで確実に成果を出すモデル」が実務で重視されています。

まとめ：パラメータ数は「手段」であり「目的」ではない

本記事で解説した内容を要約します。

パラメータ数と性能は対数的な相関：増やすほど向上するが、収穫は逓減する
MoE時代は「アクティブパラメータ数」が重要：総パラメータ数だけ見ても推論コストや速度は予測できない
コンテキストウィンドウが実務的に重要：長文処理が必要ならパラメータ数よりコンテキスト長で選ぶ
アーキテクチャ・学習データ・学習手法が性能を左右：14BのPhi-4が70Bモデルと同等の性能を出す例もある
2026年のトレンドは効率化と推論強化：モデルの巨大化ではなく、MoE・推論モデル・データ効率化が主戦場

企業がLLMを選択する際は、パラメータ数ではなく、タスクの要件（精度・速度・コスト）、コンテキスト長の要件、ローカル運用かAPI利用か、データプライバシー要件を総合的に評価して判断しましょう。

著者：生成AI総合研究所編集部

📚 あわせて読みたい

御社のAI活用、無料で診断します

業務課題のヒアリングから、最適なAI導入プランのご提案まで

無料診断を申し込む →

コンサルティングの詳細

各種業界のAI導入事例のご共有・ご相談はこちらから

労働集約的なお悩み・制作・事務のフローをお任せするAIの開発

貴社の業務フローに合わせた専用AIを開発し、定型業務や属人化したプロセスを自動化。
無駄な工数を削減し、コア業務に集中できる環境を構築します。

AI導入事例を見る・相談する →

MUST READ

生成AI、結局どう使う？を解決する
現場のための「導入・活用実践ガイド」

「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。

失敗しない「ツール選定比較表」
非専門家でもわかる「活用ステップ」
最低限知っておくべき「安全ルール」
現場が納得する「導入の進め方」

FREE

GENERATIVE AI
BUSINESS GUIDE

生成AI総合研究所編集部

法人向けAI専門メディア。AIツール比較、業務効率化、導入事例、補助金活用など、企業のAI活用に必要な情報を発信しています。AI導入支援・研修の実績多数。

編集部について →

この記事が役に立ったら、同僚にもシェアしてください

𝕏 でシェア LinkedIn でシェアはてブ

LLM（大規模言語モデル）のパラメータ数と性能の相関関係｜主要モデル比較データ