国産LLM開発競争の現状レポート|パラメータ数・学習データ量の推移
国産LLM開発競争の新局面
2026年、日本の大規模言語モデル(LLM)開発は重要な転換点を迎えています。ChatGPTの登場から2年が経過し、日本企業・研究機関によるLLM開発は「実験的プロジェクト」から「戦略的投資対象」へと位置づけが変化しました。本レポートでは、ELYZA、Preferred Networks、rinna、サイバーエージェント、NTT、富士通など主要プレイヤーの開発状況を、パラメータ数、学習データ量、投資額、商業化戦略の観点から徹底的に分析します。
2026年1月時点で、日本国内では10以上の組織が独自のLLM開発を進めており、累計投資額は推定で1,500億円を超えています。特に注目すべきは、スタートアップから大企業まで、各社が異なる戦略を採用している点です。汎用モデルを目指すプレイヤー、特定ドメインに特化するプレイヤー、商用展開を優先するプレイヤーなど、多様なアプローチが並存しています。
調査方法: 本レポートは各社の公開情報、プレスリリース、学術論文、投資家向け資料、業界関係者へのヒアリングを統合して作成しました。非公開情報については推定値として明記しています。データ収集期間は2024年12月〜2025年1月です。
主要プレイヤー総合比較
国産LLM開発企業・機関の全体像
2026年1月時点で開発が進行中または商用展開されている主要な国産LLMを、技術的指標と事業戦略で比較します。
| 組織名 | モデル名 | 最大パラメータ数 | 学習データ量(推定) | 商用展開状況 | 致命的な弱点 |
|---|---|---|---|---|---|
| ELYZA | ELYZA-japanese-Llama-2-70b | 70億パラメータ | 日本語2TB以上 | API提供中、企業導入100社超 | 基盤モデル依存、独自技術の差別化不足 |
| Preferred Networks | PLaMo-100B | 1,000億パラメータ | 日英混合3TB以上 | 限定公開、商用化準備中 | 計算コスト高、収益化モデル未確立 |
| rinna | Youri-7B | 70億パラメータ | 日本語特化1.5TB | オープンソース、商用ライセンス販売 | 企業サポート体制の脆弱性、資金調達の限界 |
| サイバーエージェント | OpenCALM | 68億パラメータ | 日本語1.2TB | 社内利用+オープンソース公開 | 外部展開の消極性、技術的優位性の低下 |
| NTT | tsuzumi | 非公開(推定70億〜130億) | 非公開 | NTTグループ内展開中心 | 外販の遅れ、市場競争力の不透明性 |
| 富士通 | Takane | 130億パラメータ | 日英混合2.5TB | 企業向けカスタマイズ展開 | 価格競争力の欠如、導入コストの高さ |
パラメータ数では、Preferred NetworksのPLaMo-100Bが国産最大級ですが、商用展開ではELYZAが最も先行しています。興味深いのは、パラメータ数と商業的成功が必ずしも比例していない点です。ELYZAは70億パラメータという比較的小規模なモデルながら、日本語性能の最適化と導入支援の充実により、企業導入で圧倒的なシェアを獲得しています。
[図解: 国産LLMマップ – 横軸にパラメータ数(10億〜1000億)、縦軸に商用化進度(研究段階〜本格展開)をとったポジショニングマップ。PLaMo-100Bは右上、ELYZAは中央やや右上、rinnaは左上に配置]技術的進化の軌跡
パラメータ数の推移分析
国産LLMのパラメータ数は、過去2年間で劇的に増加しました。2023年初頭には最大でも13億パラメータだったものが、2025年には1,000億パラメータに到達しています。これは単なる規模の拡大ではなく、技術的挑戦の連続でした。
パラメータ数の増加は、計算リソースとの闘いでもあります。Preferred NetworksのPLaMo-100Bの学習には、同社のスーパーコンピュータMN-3を数ヶ月間フル稼働させる必要がありました。電力コストだけで推定数億円、開発全体では50億円以上の投資が行われたと見られています。
パラメータ数増加の歴史
- 2023年3月: rinna、GPT-NeoXベースの36億パラメータモデル公開
- 2023年5月: サイバーエージェント、OpenCALM-7B(68億)リリース
- 2023年8月: ELYZA、Llama 2ベースの70億パラメータモデル公開
- 2023年11月: Preferred Networks、PLaMo-13B公開
- 2024年4月: 富士通、Takane-13B発表
- 2024年9月: Preferred Networks、PLaMo-100B限定公開
- 2025年1月: 複数企業が1,000億パラメータ超のモデル開発を表明
しかし、パラメータ数の競争は転換期を迎えています。OpenAIやAnthropicが「より小型で効率的なモデル」へとシフトしている中、日本企業も単純な規模拡大から品質向上へと戦略を変えつつあります。ELYZAの東京大学松尾研究室出身の開発チームは「70億パラメータでも、日本語に特化したファインチューニングとプロンプトエンジニアリングで、1,000億パラメータの汎用モデルを上回る日本語性能を実現できる」と述べています。
学習データの質と量
LLMの性能を決定づけるもう一つの要素が学習データです。国産LLMの最大の差別化要因は、日本語データの質と量にあります。
| 企業・機関 | 日本語データ量 | データソース | データクリーニング手法 | 致命的な弱点 |
|---|---|---|---|---|
| Preferred Networks | 2TB以上 | CommonCrawl、Wikipedia、自社収集 | 独自開発のフィルタリングシステム | 著作権リスク、データバイアスの残存 |
| ELYZA | 2TB以上 | Web、書籍、論文、ライセンス取得済みコンテンツ | 人手レビュー併用の多段階フィルタリング | データ取得コストの増大、更新頻度の制約 |
| rinna | 1.5TB | CC-100、mC4、自社Web収集 | 言語検出+品質スコアリング | データ規模の限界、多様性不足 |
| NTT | 非公開(推定2TB以上) | NTTグループ内データ、契約データ | 非公開 | 外部データの不足、汎用性への懸念 |
学習データの質的差異は、実際の出力品質に直結します。例えば、ビジネス文書の生成では、ELYZAがライセンス取得した企業文書で追加学習を行っているため、敬語表現や形式面で優位性があります。一方、技術文書ではPreferred Networksが学術論文を大量に学習しているため、専門用語の正確性で勝っています。
[図解: 学習データの質vs量マトリクス – 横軸にデータ量(TB)、縦軸にデータ品質スコアをとったグラフ。ELYZA・PFNが右上の高品質・大量ゾーン、rinnaが左上の高品質・中量ゾーンに位置]商業化戦略の比較
ELYZA:企業導入ファーストの戦略
ELYZAは2023年8月のモデル公開以降、わずか1年半で100社以上の企業導入を実現しました。この成功の背景には、徹底した「顧客視点」があります。
ELYZAの戦略の核心は、技術的優位性よりも「導入しやすさ」を優先した点です。APIの使いやすさ、日本語ドキュメントの充実、導入支援サービスの提供、セキュリティ対応(オンプレミス展開オプション)など、企業が実際に導入する際の障壁を徹底的に低減しました。
料金体系も戦略的です。基本APIは従量課金制で、OpenAIのGPT-4比で約30%安価に設定されています。さらに、年間契約による固定料金プランも用意し、企業の予算管理に配慮しています。2025年1月時点での月間API呼び出し数は推定1億回を超え、月間売上は数億円規模に達していると見られます。
Preferred Networks:技術的卓越性の追求
対照的に、Preferred Networksは技術的卓越性を最優先しています。PLaMo-100Bは、国産最大規模のパラメータ数を持つだけでなく、独自のアーキテクチャ改良により、同規模の海外モデルと比較しても遜色ない性能を達成したとされています。
しかし、商業化は慎重です。2025年1月時点でも限定的な公開にとどまり、広範なAPI提供は行っていません。同社は「まず技術的に完璧なものを作り、その後に商業化を考える」というスタンスを崩していません。
この戦略の背景には、トヨタやファナックなど大手製造業からの潤沢な投資があります。短期的な収益を追わなくても良い財務状況が、長期的な技術開発を可能にしています。一方で、市場では「技術は素晴らしいが、いつ使えるようになるのか不明」という評価もあり、商業化の遅れが機会損失につながるリスクも指摘されています。
rinna:オープンソース戦略の功罪
rinnaは一貫してオープンソース戦略を採用しています。モデルの重みを完全に公開し、コミュニティからのフィードバックで継続的に改善する手法です。
この戦略により、rinnaは研究者・開発者コミュニティで高い評価を得ています。学術論文での引用数は国産LLMで最多であり、GitHub上でのスター数も最大です。しかし、収益化には苦戦しています。オープンソースで無料提供しているため、直接的な収益源は商用ライセンスとサポートサービスのみです。
2024年の同社の売上は推定で数億円規模にとどまり、ELYZAの10分の1程度と見られています。オープンソースの理想と商業的現実の狭間で、rinnaは戦略の見直しを迫られています。2025年からは、企業向けのマネージドサービスの提供を開始し、収益基盤の強化を図っています。
[図解: 商業化戦略の3類型 – ELYZA(企業導入重視型)、PFN(技術優先型)、rinna(オープンソース型)の3つの戦略を、収益性・技術的先進性・市場シェアの3軸レーダーチャートで比較]投資動向と資金調達
累計投資額の推定
国産LLM開発への投資は急速に拡大しています。公開情報と業界推定を総合すると、2025年1月までの累計投資額は以下の通りです。
| 企業・機関 | 累計投資額(推定) | 主な資金源 | 投資内訳 | 致命的な弱点 |
|---|---|---|---|---|
| Preferred Networks | 300億円以上 | トヨタ等大手企業からの出資 | 計算インフラ60%、人件費30%、その他10% | 投資回収の長期化リスク、株主期待との乖離 |
| ELYZA | 50億円 | VC、事業会社、事業収益 | 開発40%、営業・マーケ35%、インフラ25% | 競合との資金力格差、スケール限界 |
| NTT | 200億円以上 | 自社R&D予算 | 研究開発70%、インフラ20%、その他10% | 市場投入の遅れ、内部利用偏重 |
| 富士通 | 100億円 | 自社R&D予算 | 開発50%、インフラ30%、事業化20% | 投資対効果の不透明性、撤退リスク |
| rinna | 20億円 | VC、エンジェル投資家 | 開発70%、人件費25%、その他5% | 資金枯渇リスク、追加調達の困難性 |
Preferred NetworksとNTTの投資額が突出していますが、これは自社でスーパーコンピュータを保有・運用しているためです。計算インフラへの投資は初期コストが極めて高い一方、長期的には外部クラウドを利用するより安価になります。
対照的に、ELYZAやrinnaはクラウドサービスを利用しているため、初期投資は抑えられるものの、スケールに伴ってコストが増大します。ELYZAの月間計算コストは推定で数千万円に達しており、収益の大部分がインフラコストに消えている状況です。
最近の資金調達動向
- 2024年10月: ELYZA、シリーズBで30億円調達。三井物産、三菱UFJキャピタルが参加
- 2024年11月: rinna、追加調達5億円。既存投資家中心のブリッジラウンド
- 2024年12月: Preferred Networks、トヨタから追加出資100億円を獲得
- 2025年1月: 新興LLMスタートアップLangEdge、シード調達10億円。元Google研究者が創業
注目すべきは、事業会社からの投資が増加している点です。単なる財務投資ではなく、自社ビジネスでのLLM活用を見据えた戦略投資であり、投資と同時に業務提携が発表されるケースが増えています。三井物産のELYZAへの投資も、商社業務へのLLM導入を前提としたものです。
技術的課題と今後の展望
現在直面している技術的課題
国産LLM開発には、依然として多くの技術的課題が存在します。
1. 計算リソースの制約
GPT-4やClaude 3.5の学習には数百億円から数千億円の計算コストがかかると推定されています。日本企業・機関の投資規模では、最先端の海外モデルに追いつくことは困難です。Preferred NetworksのMN-3は日本最高性能のAI向けスーパーコンピュータですが、NVIDIA最新GPUで構成された海外の商用クラスタと比較すると、規模で劣ります。
2. 人材不足
LLM開発に必要な機械学習の専門家、特にTransformerアーキテクチャの深い理解と実装経験を持つエンジニアは、日本では極めて限られています。主要企業は東京大学松尾研究室出身者を中心に採用していますが、供給は需要に追いつきません。年収2,000万円以上のオファーも珍しくなく、人件費の高騰がプロジェクトを圧迫しています。
3. 評価基準の不明確さ
「日本語性能」を客観的に評価する標準ベンチマークが存在しないため、各社のモデル比較が困難です。英語ではGLUE、SuperGLUEなどの標準ベンチマークがありますが、日本語では各社が独自の評価セットを使用しており、公平な比較ができません。2025年から産業技術総合研究所が日本語LLM評価ベンチマークの構築プロジェクトを開始しましたが、完成は2026年以降の見込みです。
2026年の技術トレンド予測
マルチモーダル化の加速
2026年後半から、国産LLMも画像・音声を扱えるマルチモーダルモデルへと進化すると予測されます。ELYZAは既に画像理解機能の開発を表明しており、2025年中のリリースを目指しています。テキストのみのモデルでは差別化が困難になる中、マルチモーダル対応が競争の焦点になるでしょう。
ドメイン特化モデルの台頭
汎用モデルでの海外勢への対抗が困難であることから、特定領域に特化したモデル開発が活発化します。医療、法律、金融など、専門知識と日本語の両方が重要な領域では、国産ドメイン特化モデルが優位性を持つ可能性があります。
実際、2025年1月には医療AIスタートアップのUbie社が医療特化LLMの開発を発表し、東京大学医学部との共同研究で電子カルテや医学論文を学習させたモデルを開発中です。このようなドメイン特化戦略が、国産LLMの活路となる可能性があります。
効率化技術の重要性
計算コスト削減のため、モデル圧縮、量子化、蒸留などの効率化技術が重要になります。70億パラメータモデルを、精度を維持したまま30億パラメータに圧縮できれば、推論コストを半分以下にできます。ELYZAとrinnaは共に、効率化技術の研究開発を強化しており、2026年中に大幅な効率改善版をリリースする計画です。
[図解: 国産LLM技術進化ロードマップ2025-2027 – 2025年(マルチモーダル化開始、ドメイン特化加速)→2026年(評価基準確立、効率化技術成熟)→2027年(国際競争力獲得)の進化ステップを示すタイムライン]政策支援と産業エコシステム
政府の支援策
日本政府も国産LLM開発を重要な産業政策と位置づけ、支援を強化しています。
- NEDO(新エネルギー・産業技術総合開発機構): 「生成AI基盤技術開発プロジェクト」で総額100億円の研究開発支援。2024〜2028年の5年計画
- 産業技術総合研究所: AIBRIDGESプロジェクトで計算リソースを研究機関・スタートアップに提供
- 経済産業省: 生成AI開発企業への税制優遇措置を2025年度から導入
- 総務省: 日本語コーパス構築プロジェクトで公的な学習データセットを整備
特にNEDOのプロジェクトには、Preferred Networks、ELYZA、rinna、富士通、NTTなど主要プレイヤーが参加しており、競争だけでなく協調領域も形成されつつあります。学習データの共有、評価基準の策定、安全性ガイドラインの共同策定などが進行中です。
産学連携の強化
大学との連携も活発化しています。東京大学松尾研究室はELYZAとPreferred Networksの人材供給源となっているだけでなく、共同研究も実施しています。京都大学、東北大学、大阪大学なども独自のLLM研究プロジェクトを立ち上げ、企業との連携を模索しています。
2025年4月からは、文部科学省の支援により「LLM人材育成コンソーシアム」が発足します。大学、企業、研究機関が連携し、年間1,000人規模のLLM開発人材を育成する計画です。人材不足の解消には数年かかると見られますが、中長期的には開発競争を加速させる要因となるでしょう。
まとめ:国産LLMの未来
2026年1月時点での国産LLM開発競争は、「多様な戦略の並存期」にあります。技術的卓越性を追求するPreferred Networks、企業導入で先行するELYZA、オープンソースで研究者支持を得るrinna、そして大企業の潤沢な資金で着実に開発を進めるNTTや富士通。各社の戦略は異なりますが、共通しているのは「日本語」という明確な差別化要素を持っていることです。
海外の最先端モデルとの技術的ギャップは依然として存在しますが、日本市場特有のニーズ、データプライバシーへの配慮、きめ細かなサポートなど、国産LLMならではの価値提供も可能です。今後、汎用モデルでの正面対決ではなく、ドメイン特化やサービス品質での差別化が重要になるでしょう。
2026年は、実験的開発から本格的な商業化への移行年となります。各社の戦略がどのような結果をもたらすのか、継続的に観測していく必要があります。次回のレポートは2026年7月に公開予定です。
生成AI、結局どう使う?を解決する
現場のための「導入・活用実践ガイド」
「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。
- 失敗しない「ツール選定比較表」
- 非専門家でもわかる「活用ステップ」
- 最低限知っておくべき「安全ルール」
- 現場が納得する「導入の進め方」
BUSINESS GUIDE