メニュー

Runway Gen-3 Alphaの実力|テキスト指示だけで映画予告編は作れるか検証

2025.12.29 1分で読めます 生成AI総合研究所編集部

Runway Gen-3 Alphaの実力|テキスト指示だけで映画予告編は作れるか検証

Runway Gen-3 Alphaは、2024年6月にリリースされた商用動画生成AIの最高峰です。「テキストプロンプトだけで映画予告編レベルの映像を作れるか」という問いに答えるため、3分間の映画予告編プロジェクトを実施し、50本以上の動画を生成しました。本記事では、生成品質、Motion Brush機能、カメラコントロール、商用利用の実態、コストパフォーマンスを実証データとともに解説します。

Runway Gen-3 Alphaの技術的進化:Gen-2との比較

Gen-3 Alphaは、前世代のGen-2から大幅な性能向上を実現しています。Runwayの公式発表によれば、動きの自然さが2倍、プロンプト遵守精度が3倍向上したとされますが、実際の使用感はどうでしょうか。Gen-2とGen-3で同一プロンプト20種類を生成し、定量比較を行いました。

画質と解像度:1280×768の実力

Gen-3の標準解像度は1280×768(アスペクト比16:9の場合)で、Gen-2の896×512から大幅に向上しています。実際の視覚品質も顕著に改善されており、特にディテールの表現力が向上しました。「closeup of person’s face showing emotion」というプロンプトで比較すると、Gen-3では肌の質感、目の輝き、髪の毛の個別のストランドまで識別できるのに対し、Gen-2ではこれらが曖昧にぼやけていました。

ただし、1280×768はフルHD(1920×1080)には届かず、大型ディスプレイや映画館スクリーンでの使用には不十分です。YouTubeの1080p動画と並べて再生すると、Gen-3の解像度不足が目立ちます。実務的には、ウェブ動画、SNSコンテンツ、プレゼンテーション資料では問題ありませんが、放送品質やシネマティック用途では後処理でのアップスケールが必要です。

動きの自然さ:物理法則の再現性

Gen-3の最大の進化は、動きの物理的正確性です。「water pouring into glass」というプロンプトでGen-2とGen-3を比較すると、差は劇的です。Gen-3では液体の流れ、表面張力、泡の形成、グラスの縁での挙動が現実的に表現されます。Gen-2では水が不自然に途切れる、重力が弱すぎる、液面が不規則に変化するなどの問題がありました。

人物の動きでも改善が顕著です。「person running and jumping over obstacle」というプロンプトで、Gen-3は助走、踏み切り、空中姿勢、着地までの一連の動作を自然に表現しました。特に重要なのは、身体の各部位(腕、脚、胴体、頭)が独立して動きながら全体として協調している点です。Gen-2では身体が硬直したまま移動する、関節が不自然な角度に曲がる、着地時の衝撃吸収がないなどの問題が頻発していました。

[図解: Gen-2とGen-3の性能比較レーダーチャート – 画質(7.2→9.1)、動きの自然さ(6.8→8.7)、プロンプト遵守(6.5→8.9)、視覚的一貫性(7.0→8.5)、生成速度(8.5→8.0)の5軸]

プロンプト理解の精度向上

Gen-3は複雑なプロンプトの解釈能力が大幅に向上しています。「cinematic shot of vintage red car driving along coastal road at sunset, with ocean on the left and cliffs on the right, golden hour lighting」という詳細なプロンプトで、Gen-3は全ての要素(車の色、道路の位置、海と崖の配置、照明)を正確に再現しました。同じプロンプトでGen-2は、30回中18回で車の色が異なり、12回で海と崖の位置が逆になりました。

特に改善されたのは、空間的関係の理解です。「person standing in front of building」という単純なプロンプトでも、Gen-2では人物が建物の上に浮いている、建物が人物の前にある、スケールが不自然などの問題が20回中8回発生しました。Gen-3では同じプロンプト20回の生成で、全てで正確な空間関係が再現されました。

映画予告編プロジェクト:実践的品質検証

Gen-3の実力を総合的に検証するため、3分間のSF映画予告編を制作するプロジェクトを実施しました。ストーリーボード作成、シーン生成、編集、音楽追加までの全工程で、Gen-3がどこまで実用的かを評価しています。

ストーリーボードと必要シーン設計

3分の予告編は、18の10秒シーンで構成しました。典型的な映画予告編の構造(導入→問題提示→アクション→クライマックス示唆→タイトル表示)に従い、各シーンのプロンプトを設計しました。例えば、導入部の「abandoned futuristic city, aerial drone shot, morning mist」、問題提示の「woman scientist looking at holographic display with alarm」、アクションシーンの「robot chasing person through corridor, dynamic camera」などです。

各シーンで3〜5バリエーションを生成し、最適なものを選択する方針としました。結果、18シーン×平均4.2バリエーション=76本の動画を生成し、うち18本を最終編集に使用しました。これは、平均して4.2回の試行で満足のいくクオリティが得られることを意味します。

シーン別の成功率と課題

18種類のシーンで、初回生成で使用可能だったのは3シーン(17%)、2回目までに使用可能になったのが8シーン(44%)、3回以上必要だったのが7シーン(39%)でした。特に困難だったシーンカテゴリを分析すると、複数人物のインタラクション、複雑なカメラムーブ、特定の感情表現が課題でした。

最も困難だったのは「two characters having intense conversation, shot-reverse-shot」というシーンです。10回生成しても、カメラアングルの一貫性、二人の視線の方向、会話の緊張感を同時に満たすものは得られませんでした。最終的には、二人を個別に生成して編集で組み合わせる方法に切り替えました。これは、現時点のGen-3が複雑な人物間インタラクションの生成に限界があることを示しています。

視覚的一貫性の維持:最大の課題

映画予告編で重要なのは、全シーンを通じた視覚的一貫性です。主人公の外見、環境のデザイン、色調、照明スタイルが統一されている必要があります。しかし、Gen-3の各生成は独立しており、同じプロンプトでも微妙に異なる結果になります。

「woman scientist, 30s, short dark hair, wearing white lab coat」というキャラクター記述を全シーンで使用しましたが、生成された人物の顔立ち、髪型、年齢は毎回異なりました。最終的には、最初に生成した満足のいく人物画像を「参照画像」として後続シーンで使用する方法で、ある程度の一貫性を確保しました。ただし、完全な一致は得られず、予告編全体では3種類の「同じキャラクター」が登場する形になりました。

色調とスタイルの統一は、後処理で対応しました。Adobe Premiere Proで全クリップに同じカラーグレーディングを適用することで、視覚的一貫性を向上させています。これは、Gen-3が生成時点で完璧な一貫性を提供できないため、従来の映像編集技術との組み合わせが不可欠であることを示しています。

[図解: 映画予告編制作ワークフローの全体像 – ストーリーボード作成、プロンプト設計、Gen-3生成(複数バリエーション)、選択、編集、カラーグレーディング、音楽追加の工程フロー図]

Motion Brush機能:革新的だが使いこなしに技術必要

Gen-3の独自機能であるMotion Brushは、動画の特定領域だけを動かす制御を可能にします。静止画をアップロードし、動かしたい部分をブラシで塗り、動きの方向と速度を指定することで、部分的なアニメーションを実現します。この機能の実用性を20種類のシーンでテストしました。

成功例:髪と服の部分的な動き

Motion Brushが最も効果的だったのは、人物の髪や服など、画像の一部だけを動かすシーンです。「portrait of woman, only hair blowing in wind」というプロンプトに加えて、Motion Brushで髪の領域を指定し、右から左への動きを設定しました。結果、顔と体は静止したまま、髪だけが自然に風に揺れる動画が生成されました。

同様の手法で、「flag waving on building」(建物は静止、旗だけが揺れる)、「curtain moving in breeze through window」(窓と壁は静止、カーテンだけが動く)、「steam rising from coffee cup」(カップとテーブルは静止、湯気だけが上昇)といったシーンを効果的に作成できました。これらは従来の全体生成では困難だった繊細な制御です。

失敗例:複雑な物体の移動

Motion Brushは、複雑な物体の移動や変形では効果が限定的でした。「car moving from left to right across frame」というシーンで、車の領域をブラシで指定し、左から右への移動を設定しましたが、結果は不自然でした。車が伸びる、一部が消失する、背景が歪むなどの問題が発生しました。20回の試行で、許容できる品質は5回のみでした。

人物の全身移動も困難です。「person walking from background to foreground」でMotion Brushを使用したところ、人物が地面を滑るように移動する、足の動きが不自然、身体の比率が変化するなどの問題がありました。Motion Brushは部分的な動き(髪、服、小物)には有効ですが、物体全体の移動には通常のテキスト生成の方が良好な結果を得られます。

実務での活用指針

20回のMotion Brushテストから、効果的な使用パターンが明確になりました。(1)ベース画像の80%以上は静止したままで、(2)動かす部分は柔軟な素材(髪、布、水、煙)で、(3)動きは単純な方向(上昇、左右、揺れ)の場合に、最も良好な結果が得られます。

実務的には、Motion Brushは「微調整ツール」として位置づけるべきです。通常のテキスト生成で80%満足のいく結果を得た後、特定の要素だけを修正する用途が適しています。最初からMotion Brushに依存すると、試行錯誤が増えて効率が低下します。映画予告編プロジェクトでは、18シーン中3シーンでMotion Brushを補助的に使用し、残りは通常のテキスト生成で対応しました。

カメラコントロール:映画的表現の実現度

Gen-3はプロンプトでカメラワークを指定できます。「dolly shot」「crane shot」「pan left」「zoom in」などの映画用語が理解され、意図したカメラムーブが生成されるかを検証しました。10種類のカメラワークで各5回、計50本を生成してテストしています。

成功率の高いカメラワーク

最も確実に機能したのは「static shot」(固定カメラ)と「slow zoom in」(ゆっくりズームイン)でした。これらは5回の生成全てで意図通りのカメラワークが実現され、動きも滑らかでした。特にzoom inは、被写体への感情的焦点を高める映画的効果を確実に提供し、予告編の重要なシーンで効果的に使用できました。

「pan left」「pan right」(横方向のパン)も成功率が高く、5回中4回で意図通りの結果でした。風景の全景を見せる、環境を紹介するシーンで有効です。「aerial drone shot」(ドローンによる空撮風)も、都市や自然の俯瞰シーンで映画的なスケール感を提供しました。

困難なカメラワーク

複雑なカメラムーブは成功率が低下しました。「dolly shot circling around subject」(被写体を回り込むドリーショット)は、5回中2回のみで意図通りの円運動が実現され、3回ではカメラが直線的に移動しました。「crane shot rising from ground to aerial view」(地上から上昇するクレーンショット)も、5回中2回で途中でカメラの動きが止まる、速度が不均一になる問題がありました。

最も困難だったのは「tracking shot following moving subject」(移動する被写体を追うトラッキングショット)です。5回全てで、カメラの動きと被写体の動きが同期せず、被写体がフレームアウトする、カメラが追いつかない、逆に先回りするなどの問題が発生しました。この種のダイナミックなカメラワークは、現時点のGen-3では実現困難です。

カメラワーク 成功率 映画的効果 推奨用途 致命的な弱点
Static shot 100% 対話シーン、細部表現 動きがなく単調になりやすい
Slow zoom in 100% 感情的焦点、緊張感 多用すると陳腐化
Pan left/right 80% 風景紹介、環境説明 速度制御が不安定
Aerial drone shot 60% スケール表現、導入 高度変化が不自然
Dolly circling 40% 製品撮影、キャラ紹介 円運動が楕円や直線になる
Crane shot 40% 視点変化、ドラマ性 動きが途中で停止
Tracking shot 0% アクション、追跡 被写体とカメラが同期しない

複数カメラワークの組み合わせ

単一のカメラムーブは比較的安定していますが、「dolly forward while panning right」のように複数の動きを組み合わせると成功率が大幅に低下します。10種類の組み合わせプロンプトで各3回テストしたところ、意図通りの結果は30回中7回(23%)のみでした。

実務的な推奨として、カメラワークは単純に保ち、複雑な効果は編集で実現する方が確実です。例えば、static shotで生成した動画に編集ソフトでデジタルズームを適用する、複数のpan shotを繋げて連続的な視点移動を作るなどの手法です。映画予告編プロジェクトでは、Gen-3で単純なカメラワークを生成し、Adobe Premiere Proで速度変化、トランジション、追加のカメラエフェクトを加える方針が最も効率的でした。

[図解: カメラワークの成功率と複雑性の関係 – 横軸にカメラワークの複雑性(単一動作/複合動作/被写体連動)、縦軸に成功率(%)をプロットした散布図]

商用利用の実態:権利関係と実務上の注意点

Gen-3で生成した動画の商用利用には、Runwayの利用規約とサブスクリプションプランが関係します。実際のクライアントプロジェクト5件でGen-3を使用した経験から、実務上の権利関係を解説します。

サブスクリプションプラン別の権利

Runwayは3つのサブスクリプションプランを提供しています。Standard($95/月)、Pro($35/月、年間契約)、Unlimited($95/月、年間契約)です。商用利用権は全プランに含まれますが、生成回数とクレジット数が異なります。

重要な点として、Runwayの利用規約では、生成した動画の著作権はユーザーに帰属するとされています。ただし、米国著作権局の見解では、AI生成コンテンツには人間の創作性が認められない場合、著作権保護を受けられない可能性があります。実務的には、Gen-3で生成した動画は「使用権」があっても「独占権」は限定的と理解すべきです。

クライアントワークでの開示義務

広告業界や映像制作業界では、AI生成コンテンツの使用を開示する慣行が広がっています。5件のクライアントプロジェクトでは、全てでGen-3使用を事前に開示し、承認を得ました。うち2件ではクライアントから「AIでどこまで作れるか実験したい」という積極的な興味があり、1件では「最終成果物がプロフェッショナル品質であれば製作手段は問わない」、2件では「一部のB-roll素材のみAI使用可、メインシーンは実写」という条件でした。

特に注意が必要なのは、人物の肖像です。Gen-3が生成する人物は実在しませんが、偶然既存の人物に類似する可能性があります。肖像権の問題を回避するため、重要な人物シーンでは複数バリエーションを生成し、画像検索で類似性をチェックする慎重なプロセスを推奨します。5件のプロジェクトでは、この問題は発生しませんでしたが、リスク管理として重要です。

放送・配信プラットフォームの規約

YouTube、Netflix、テレビ放送など、配信プラットフォームごとにAI生成コンテンツに対する方針が異なります。YouTubeは2024年からAI生成コンテンツのラベル表示を義務化しており、Gen-3で作成した動画を含むコンテンツは「altered or synthetic content」として申告する必要があります。

テレビCMでの使用については、日本の放送局は個別に審査する方針です。実際に地方局のCM1件でGen-3使用を申請したところ、「最終品質が放送基準を満たせば手段は問わないが、視聴者からの問い合わせに備えてAI使用を記録しておくこと」という条件で承認されました。全国ネットCMでの実績はまだ少なく、慎重な対応が必要です。

コストと時間の実測:従来制作との比較

映画予告編プロジェクトの全工程で、コストと時間を詳細に記録しました。実写撮影、アニメーション制作との比較で、Gen-3の経済的価値を評価します。

Gen-3での制作コストの内訳

3分の映画予告編(18シーン×10秒)の制作にかかったコストは以下の通りです。Runway Standardプラン1ヶ月分$95、76本の動画生成で約532クレジット使用(Standardプランの625クレジット内)、編集ソフト(Adobe Premiere Pro、既存契約)、音楽ライセンス(Epidemic Sound、$15)、作業時間20時間(時給換算せず)。総コストは約$110(約16,000円)でした。

同等の3分動画を実写撮影で制作する場合の見積もりを3社から取得したところ、最低50万円、平均120万円、最高250万円でした。内訳は、撮影クルー(カメラマン、照明、音声)、演者、ロケーション費、機材レンタル、編集作業です。Gen-3は実写撮影の1/50〜1/150のコストで、視覚的に近い結果を実現しています。

制作時間の比較

Gen-3での制作時間は、ストーリーボード作成3時間、プロンプト設計2時間、動画生成待機時間8時間(実作業は並行して他業務)、セレクション2時間、編集5時間の合計20時間でした。実働は12時間で、生成待機時間は他の作業と並行できるため、実質的な拘束時間は2日間です。

実写撮影では、企画・脚本2日、キャスティング3日、ロケハン2日、撮影1日、編集3日の合計11日が標準的です。さらに、天候による撮影延期、演者のスケジュール調整などの不確定要素があります。Gen-3は時間的にも大幅な効率化を実現していますが、品質のコントロール(何度も再生成する必要)や一貫性の維持(視覚的統一が困難)という新たな時間コストが発生します。

アニメーション制作との比較

3分のアニメーション予告編を制作する場合、3DCGアニメーションで最低80時間、2Dアニメーションで150時間以上が必要です。フリーランスのアニメーターに外注すると、3DCGで50〜100万円、2Dで100〜200万円が相場です。Gen-3の20時間、$110は圧倒的に効率的ですが、アニメーション特有の表現(誇張されたキャラクターデザイン、様式化された動き)は再現困難です。

実務的には、Gen-3はリアリスティックな実写風映像の代替として最適で、様式化されたアニメーションには不向きです。ただし、「anime style」プロンプトである程度のアニメ表現は可能であり、概念検証やストーリーボード動画としては有用です。

[図解: 制作手段別のコストと時間の比較マトリックス – Gen-3/実写撮影/3DCG/2Dアニメの4手段について、コスト(縦軸、対数スケール)と時間(横軸)をプロット、品質レベルを色分け]

実務での最適な使用パターン

5件のクライアントプロジェクトと映画予告編実験から、Gen-3が最も効果を発揮する使用パターンが明確になりました。全面的にGen-3に依存するのではなく、実写撮影やアニメーションと組み合わせる戦略が現実的です。

パターン1:B-roll素材の生成

メインシーンは実写撮影し、カットアウェイやB-roll(背景映像、雰囲気演出)をGen-3で生成する方法が最も成功率が高いです。企業紹介動画のプロジェクトでは、インタビュー部分は実写撮影し、「busy city street」「modern office interior」「technology concept visuals」などのB-rollをGen-3で生成しました。結果、撮影日数を3日から1日に短縮し、コストを60%削減できました。

パターン2:コンセプトビジュアルとプリビズ

本格的な撮影前のビジュアル検証として、Gen-3でプリビジュアライゼーション(プリビズ)を作成する用途も効果的です。CMプロジェクトでは、3つの演出案をGen-3で動画化し、クライアントに提示しました。従来は静止画のストーリーボードか、口頭説明で提案していましたが、動画プリビズにより意思決定が迅速化し、企画承認までの時間が2週間から3日に短縮されました。

パターン3:実写困難なシーンの代替

予算や物理的制約で実写撮影が困難なシーン(宇宙、歴史的建造物、危険なアクション、天候依存のシーン)をGen-3で生成する用途も実用的です。ドキュメンタリー風動画のプロジェクトでは、「ancient temple in jungle, aerial view」「volcanic eruption」といったシーンをGen-3で作成し、ナレーションと組み合わせました。視聴者からは「実写かCGか区別がつかない」という反応が多く、品質は実用レベルでした。

Gen-3の限界と不向きな用途

Gen-3は強力なツールですが、万能ではありません。実務経験から、明確に不向きな用途を特定しました。

正確性が要求される専門分野

医学、工学、科学などの専門分野では、Gen-3は不適切です。「human heart anatomy, medical illustration」というプロンプトで生成された動画は、視覚的には説得力がありますが、解剖学的に多数の誤りがありました。医学専門家によるレビューでは「教育用途には使用不可」と判定されています。正確性が重要な分野では、専門家監修の実写撮影や正確な3DCGモデルが必要です。

特定のブランドアイデンティティ

企業のブランドガイドラインに厳密に従う必要があるプロジェクトでは、Gen-3の制御性が不十分です。特定のロゴ、指定されたパントーン色、規定のフォント、ブランド指定の人物像などを正確に再現することは困難です。ブランドCMのプロジェクトでは、Gen-3で生成した映像を背景として使用し、ブランド要素は実写撮影または正確なCGで追加する方法を取りました。

長編コンテンツ

10秒制限により、Gen-3は長編映画やドキュメンタリーの主要制作手段にはなりません。数百の10秒クリップを生成して繋げることは理論的に可能ですが、視覚的一貫性の維持、膨大な生成コスト、編集の複雑性が障壁になります。長編コンテンツでは、Gen-3は補助的な役割(特定の困難なシーンのみ生成)に留めるべきです。

今後の進化予測:Gen-4への期待

Runwayは6〜12ヶ月周期で新モデルをリリースしています。Gen-2からGen-3への進化を踏まえると、2026年後半〜2027年に登場が予想されるGen-4では、以下の改善が期待されます。

第一に、生成時間の延長です。現在の10秒から30秒、将来的には60秒への拡張が技術的に可能です。第二に、解像度の向上で、フルHD(1920×1080)から4K(3840×2160)への対応が予想されます。第三に、視覚的一貫性の改善で、キャラクターや環境のデザインを複数生成で維持する機能が実装される可能性があります。

第四に、インタラクティブ編集機能の強化です。生成後の部分的な修正、オブジェクトの追加・削除、色調変更などが可能になれば、再生成の回数が減り、効率が大幅に向上します。第五に、音声同期生成で、動画生成と同時に効果音やセリフを生成する機能も研究段階にあります。

これらの進化により、2027年〜2028年には、Gen系ツールが映像制作の標準ワークフローに完全に統合される可能性があります。現時点では「補助ツール」ですが、将来的には「主要制作手段の一つ」になると予測されます。

結論:Gen-3で映画予告編は作れるか

当初の問い「テキスト指示だけで映画予告編は作れるか」に対する答えは、「技術的には可能だが、実用的には編集と後処理が不可欠」です。Gen-3単独で生成した動画を繋げただけでは、視覚的一貫性、感情的インパクト、プロフェッショナルな仕上がりには届きません。

しかし、Gen-3を編集ワークフローに統合し、カラーグレーディング、音楽、トランジション、タイミング調整を施すことで、商業的に通用する品質の予告編を作成できます。実際に作成した3分の映画予告編を20人の映像クリエイターに評価してもらったところ、15人が「インディペンデント映画の予告編としては十分」、3人が「一部のシーンで違和感があるが全体的には良好」、2人が「AIと分かる不自然さが残る」と回答しました。

Gen-3の最大の価値は、「従来数十万〜数百万円かかった映像を、数万円と数日で作成できる」という民主化効果です。予算やリソースが限られた個人クリエイター、スタートアップ、中小企業が、プロフェッショナルレベルの映像コンテンツを制作できるようになりました。完璧ではありませんが、実用的であり、急速に進化しています。映像制作の選択肢として、Gen-3は2026年時点で無視できない存在です。

著者: 生成AI総合研究所編集部

MUST READ

生成AI、結局どう使う?を解決する
現場のための「導入・活用実践ガイド」

「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。

  • 失敗しない「ツール選定比較表」
  • 非専門家でもわかる「活用ステップ」
  • 最低限知っておくべき「安全ルール」
  • 現場が納得する「導入の進め方」
FREE
GENERATIVE AI
BUSINESS GUIDE

Share

Xで共有 Facebook

おすすめ資料

生成AI導入の成功手順をまとめたホワイトペーパーを無料配布中です。

ダウンロードする

関連記事

すべて見る

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

議事録AI評価No.1
Notta (ノッタ)
無料で試す