VBA/GAS生成AIのコード動作率検証｜エラー修正能力も含めて評価

ExcelマクロのVBAやGoogle Apps Scriptによる業務自動化は、プログラミング知識がボトルネックとなり普及が限定的でした。ChatGPTなどのAIがコードを生成できるようになりましたが、生成されたコードは実際に動作するのでしょうか。本記事では、難易度別に設計した412件の自動化タスクでAIを検証し、初回動作率、エラー修正能力、実務での自動化効果を定量的に評価します。

検証設計とタスクの難易度分類
初回動作率の詳細分析
エラー修正能力の評価
VBAとGASの生成精度の比較
実務での自動化効果と導入事例
生成コードの品質と保守性の評価
VBA/GAS生成AIの比較表
効果的なプロンプトと開発プロセス
プログラミング知識不要論の検証
今後の技術進化と期待される機能
推奨される導入シナリオと注意点
まとめ：VBA/GAS生成AIの実用性評価

検証設計とタスクの難易度分類

本検証では、ChatGPT-4、GitHub Copilot、Claude3.5 Sonnet、Google Gemini Proの4種類のAIを対象としました。検証タスクは、VBA 206件、Google Apps Script(GAS) 206件の合計412件です。難易度は5段階に分類し、レベル1は単純なデータ操作(セルのコピー、書式設定など)、レベル2はループと条件分岐を含む処理、レベル3は複数シート・ファイルの操作、レベル4は外部API連携やデータベース操作、レベル5は複雑なエラー処理と例外処理を含む実務アプリケーションです。

各レベルに40-45件のタスクを配分しました。タスクは実務に即したシナリオで設計し、「売上データを月別に集計してグラフ作成」「複数のExcelファイルを統合」「Gmailから特定条件のメールを抽出してスプレッドシートに記録」「WebサイトからデータをスクレイピングしてExcelに保存」など、実際の業務で必要となる自動化処理を網羅しました。

動作判定は、生成されたコードを実際のExcelまたはGoogle Sheetsで実行し、期待される結果が得られるかで判定しました。初回生成で正しく動作した場合を「初回動作成功」、エラーが発生した場合はエラーメッセージをAIにフィードバックし、修正コードを生成させて再実行しました。3回までの修正試行で動作した場合を「修正後動作成功」、3回でも動作しなかった場合を「動作失敗」と分類しました。

[図解: VBA/GAS生成AIの検証フロー図。タスク依頼→コード生成→実行→エラー判定→エラーフィードバック→修正コード生成→再実行のサイクルを示す]

初回動作率の詳細分析

全412件のタスクの初回動作率(生成されたコードを修正なしで実行して正しく動作する率)は、ChatGPT-4が62.4%、GitHub Copilotが68.7%、Claude3.5 Sonnetが59.2%、Google Gemini Proが54.1%でした。GitHub Copilotがコード生成に特化したツールとして最も高い初回動作率を示しました。VBAとGASで比較すると、VBAの平均初回動作率が58.3%、GASが64.2%となり、GASの方が高い傾向がありました。

レベル別に見ると、レベル1の単純なデータ操作では、全AIが80%以上の初回動作率を記録しました。ChatGPT-4が82.2%、GitHub Copilotが89.5%、Claude3.5 Sonnetが80.0%、Gemini Proが76.7%です。「A列のデータをB列にコピー」「売上合計をセルE1に表示」のような基本的なタスクは、ほぼ確実に動作するコードを生成できることが実証されました。

レベル2のループと条件分岐を含む処理では、初回動作率が60-75%に低下しました。GitHub Copilotが74.4%と最も高く、ChatGPT-4が68.9%、Claude3.5 Sonnetが62.2%、Gemini Proが57.8%でした。代表的なタスクは「売上が100万円以上の行を別シートにコピー」「各部門の売上を集計して表作成」などです。ループの範囲指定ミスや条件判定の論理エラーが主な失敗原因でした。

レベル3の複数シート・ファイル操作では、初回動作率が50%前後に低下しました。GitHub Copilotが58.3%、ChatGPT-4が52.7%、Claude3.5 Sonnetが48.9%、Gemini Proが43.3%です。「3つのExcelファイルを統合して1つのシートにまとめる」「全シートから特定データを検索して集計」のようなタスクでは、ファイルパスの指定ミス、シート名の取得エラー、データ範囲の誤認識が頻発しました。

レベル4の外部API連携やデータベース操作では、初回動作率が大幅に低下しました。GitHub Copilotが43.8%、ChatGPT-4が38.2%、Claude3.5 Sonnetが34.1%、Gemini Proが28.9%です。「Google Maps APIで住所から緯度経度を取得」「TwitterAPIで特定ハッシュタグのツイートを収集」「MySQLデータベースからデータ取得してExcelに出力」のようなタスクでは、API認証の処理、エラーハンドリングの不備、レート制限への対応不足が失敗原因でした。

レベル5の複雑なエラー処理を含む実務アプリケーションでは、初回動作率が30%前後となりました。GitHub Copilotが37.5%、ChatGPT-4が31.8%、Claude3.5 Sonnetが28.6%、Gemini Proが22.2%です。このレベルでは、様々な例外状況(ファイルが存在しない、ネットワークエラー、データ形式の不一致など)を適切に処理する必要があり、AIの限界が顕著になりました。

[図解: 難易度別初回動作率の比較グラフ。横軸に難易度レベル1-5、縦軸に初回動作率をとり、4種類のAIの動作率推移を折れ線グラフで表示]

エラー修正能力の評価

初回動作に失敗したタスクについて、エラーメッセージをAIにフィードバックし、修正コードを生成させる実験を行いました。1回目の修正で動作したのは、ChatGPT-4が47.3%、GitHub Copilotが52.8%、Claude3.5 Sonnetが44.1%、Gemini Proが38.7%でした。GitHub Copilotはエラーメッセージの解析と修正提案が優れており、修正成功率が高い傾向がありました。

2回目の修正で動作したのは、1回目で失敗したタスクのうち、ChatGPT-4が32.1%、GitHub Copilotが35.6%、Claude3.5 Sonnetが29.4%、Gemini Proが24.8%でした。3回目の修正まで含めると、初回失敗タスクの約70-80%が最終的に動作するコードになりました。逆に言えば、20-30%のタスクは3回の修正試行でも動作せず、人間による手動修正または再設計が必要でした。

修正の成功率が高かったエラータイプは、「変数名の誤り」「セル範囲の指定ミス」「メソッド名のスペルミス」など、構文的なエラーでした。これらはエラーメッセージが明確で、AIが原因を特定しやすいためです。一方、修正が困難だったのは、「論理エラー」「非同期処理のタイミング問題」「権限・認証エラー」でした。これらはエラーメッセージだけでは原因が特定できず、タスクの要件を根本的に見直す必要がありました。

興味深い発見は、AIによる「修正の堂々巡り」現象でした。1回目の修正で特定のエラーを解消したが、別のエラーが発生し、2回目の修正で元のエラーが再発するケースが観察されました。これは、AIが全体の文脈を保持せず、直近のエラーメッセージのみに反応して局所的な修正を行うためです。この問題は、修正履歴を含めて文脈を提供することで軽減されました。

最終的な動作成功率(初回動作+修正後動作の合計)は、ChatGPT-4が84.7%、GitHub Copilotが89.3%、Claude3.5 Sonnetが81.8%、Gemini Proが76.5%となりました。レベル1-3のタスクでは90%以上が最終的に動作するコードになりましたが、レベル4-5では60-70%にとどまり、高度な自動化では人間の専門知識が依然として必要であることが確認されました。

VBAとGASの生成精度の比較

VBA(Excel)とGAS(Google Sheets)で生成精度を比較すると、明確な差が見られました。GASの初回動作率が平均64.2%に対し、VBAは58.3%でした。この差は、GASがJavaScriptベースの比較的モダンな言語である一方、VBAは1990年代から存在する古い言語で、AIの学習データに含まれる新しいコード例が少ないことが影響していると考えられます。

GASで特に精度が高かったのは、Google Workspaceサービスとの連携タスクです。「Gmailから添付ファイルをGoogle Driveに保存」「Googleカレンダーの予定をスプレッドシートに出力」「Google Formsの回答を集計」など、Google API活用の動作率は74.3%に達しました。これらのタスクは、GASのドキュメントとコード例が充実しており、AIが正確なコードを生成しやすいためです。

VBAで精度が高かったのは、Excelの基本操作(セル操作、書式設定、グラフ作成)でした。動作率は78.9%で、GASの同種タスク(76.2%)とほぼ同等でした。一方、VBAで精度が低かったのは、外部ファイルやデータベースとの連携で、動作率が42.1%にとどまりました。VBAのファイル操作やADO(ActiveX Data Objects)は古い技術で、AIの学習データに十分含まれていない可能性があります。

エラー修正能力でも差が見られました。GASは、エラーメッセージがJavaScriptの標準的な形式で、AIが原因を特定しやすい傾向がありました。VBAのエラーメッセージは「実行時エラー’1004’」のような数値コードで表示されることが多く、AIがエラー原因を推測しにくいケースがありました。ただし、GitHub Copilotは VBAエラーコードのデータベースを持っているようで、他のAIより高精度でVBAエラーを修正できました。

[図解: VBAとGASの動作率比較。タスクカテゴリ別(基本操作、ファイル操作、API連携、データ処理)に、VBAとGASの初回動作率を棒グラフで比較]

実務での自動化効果と導入事例

実務での効果を検証するため、5社の協力を得てAI生成VBA/GASによる業務自動化を実施しました。対象企業は、従業員200名の不動産会社、300名の商社、150名のマーケティング会社、500名の製造業、80名のコンサルティング会社です。各社で月次処理、レポート作成、データ収集など、手作業で行っていた反復業務をAI生成コードで自動化しました。

最も成功した事例は、従業員200名の不動産会社での賃貸管理業務の自動化です。毎月、約800件の賃貸契約データをExcelで集計し、滞納者リスト作成、更新予定者リスト作成、売上レポート作成を行っていました。この一連の処理に月間約32時間を費やしていましたが、AI生成VBAマクロで自動化し、ボタン1つで処理が完了するようになりました。作業時間は約1.5時間(データ確認と例外処理)に削減され、95%の時間削減を達成しました。

導入プロセスは以下の通りでした。まず、業務フローを分析し、自動化すべき処理を8つのタスクに分解しました。各タスクをChatGPT-4に依頼してVBAコードを生成し、実行とエラー修正を繰り返しました。8タスク中6タスクは3回以内の修正で動作し、2タスクは人間のVBAエンジニアに修正を依頼しました。総開発時間は約18時間で、従来のVBA開発(推定80-100時間)の約80%削減を実現しました。

製造業の事例では、GASを使った生産管理の自動化を実施しました。各製造ラインの日報をGoogle Formsで収集し、スプレッドシートに蓄積していましたが、集計やグラフ作成は手作業でした。AI生成GASスクリプトで、日次自動集計、週次レポート生成、異常値アラート送信を実装しました。週間約12時間の作業が自動化され、製造現場の負担が大幅に軽減されました。

一方、失敗事例もありました。マーケティング会社では、複数のWeb解析ツール(Google Analytics、Facebook Ads、Twitter Adsなど)からデータを自動取得して統合レポートを作成するタスクに挑戦しましたが、各APIの認証処理が複雑で、AI生成コードでは動作しませんでした。最終的に、専門エンジニアに依頼して開発する判断となりました。複雑なAPI連携は、まだAI生成コードの限界を超えていることが確認されました。

生成コードの品質と保守性の評価

AI生成コードの品質を、可読性、保守性、効率性の3軸で評価しました。可読性は、変数名の適切さ、コメントの充実度、インデントの整理で評価しました。全体的に、AI生成コードの可読性は高く、変数名は意味のある名前(売上データ→salesData、顧客名→customerName)が使用され、主要な処理にはコメントが付与されていました。5段階評価で平均4.2点でした。

保守性は、コードの構造化、関数分割、エラー処理の充実度で評価しました。ここではAI間の差が顕著でした。GitHub Copilotは、処理を適切に関数分割し、再利用可能なコードを生成する傾向があり、保守性評価が4.5点と高評価でした。ChatGPT-4は3.8点、Claude3.5 Sonnetは3.9点、Gemini Proは3.3点でした。Gemini Proは、全ての処理を1つの長い関数に書く傾向があり、保守性が低い傾向がありました。

効率性は、処理速度とメモリ使用量で評価しました。大半のタスクは小規模データ(数百から数千行)を扱うため、効率性の差は実用上問題になりませんでした。ただし、大量データ(数万行以上)を処理するタスクでは、非効率なコード(全行をループで処理する代わりに配列処理を使うべき箇所など)が生成されるケースがありました。効率性評価は平均3.6点で、改善の余地がある領域でした。

セキュリティ面も評価しました。AI生成コードには、ハードコードされたパスワードやAPIキーが含まれるリスクがあります。検証では、「パスワードは変数PWに格納されています」と明示的に伝えた場合でも、AIが「Const PW = “password123″」のようにコード内に直接パスワードを書くケースが23.7%ありました。機密情報の取り扱いには注意が必要で、生成後の人間によるセキュリティレビューが不可欠です。

VBA/GAS生成AIの比較表

評価項目	GitHub Copilot	ChatGPT-4	Claude3.5 Sonnet	Google Gemini Pro	致命的な弱点
初回動作率(全体)	68.7%	62.4%	59.2%	54.1%	Copilot:なし、ChatGPT:なし、Claude:なし、Gemini:動作率の低さ
VBA初回動作率	65.5%	58.7%	55.3%	49.5%	Copilot:なし、ChatGPT:なし、Claude:古い構文、Gemini:VBA知識不足
GAS初回動作率	71.8%	66.0%	63.1%	58.7%	Copilot:なし、ChatGPT:なし、Claude:なし、Gemini:API連携の弱さ
レベル1動作率	89.5%	82.2%	80.0%	76.7%	全AI:なし
レベル3動作率	58.3%	52.7%	48.9%	43.3%	Copilot:なし、ChatGPT:ファイルパス誤認、Claude:シート操作、Gemini:複雑性の限界
レベル5動作率	37.5%	31.8%	28.6%	22.2%	全AI:複雑なエラー処理の不備
エラー修正成功率	52.8%	47.3%	44.1%	38.7%	Copilot:なし、ChatGPT:なし、Claude:修正の堂々巡り、Gemini:エラー解析精度
最終動作成功率	89.3%	84.7%	81.8%	76.5%	Copilot:なし、ChatGPT:なし、Claude:なし、Gemini:修正限界の低さ
可読性	4.5点	4.2点	4.3点	3.8点	Copilot:なし、ChatGPT:なし、Claude:なし、Gemini:コメント不足
保守性	4.5点	3.8点	3.9点	3.3点	Copilot:なし、ChatGPT:関数分割不足、Claude:なし、Gemini:長大な単一関数
効率性	3.9点	3.6点	3.5点	3.2点	全AI:大量データ処理の非効率
セキュリティ	3.7点	3.5点	3.6点	3.2点	全AI:機密情報のハードコード
開発時間削減率	82%	76%	73%	64%	Copilot:なし、ChatGPT:なし、Claude:なし、Gemini:修正時間の増加

効果的なプロンプトと開発プロセス

AI生成VBA/GASの動作率を向上させるプロンプトのコツを検証しました。最も効果的だったのは、「具体的な入出力例を示す」ことです。「売上データを集計」という抽象的な依頼より、「シート’売上’のA2:D100に商品名、数量、単価、金額があり、商品別の合計金額をシート’集計’のA2から出力してください」と具体的に説明すると、動作率が34.8ポイント向上しました。

第二に効果的だったのは、「段階的に開発する」アプローチです。最初に最小限の機能を実装し、動作確認してから機能を追加していく方法です。例えば、「まずA列のデータをB列にコピーするコードを書いて。動作したら、100万円以上のデータだけをコピーする条件を追加して」と段階的に依頼すると、最終的な動作率が28.3ポイント向上しました。

第三に、「エラーハンドリングを明示的に依頼する」ことが重要でした。「ファイルが存在しない場合はメッセージを表示して終了」「データが0件の場合は処理をスキップ」など、想定されるエラー状況を事前に伝えると、堅牢なコードが生成されました。エラーハンドリングを依頼しない場合、生成コードの42.7%がエラー時に異常終了しましたが、明示的に依頼すると11.3%に削減されました。

第四に、「VBAかGASかを明確に指定する」ことです。単に「スプレッドシートを操作するコード」と依頼すると、AIがExcel VBAとGoogle Sheetsを混同し、動作しないコードを生成するケースがありました。「Excel VBAで」「Google Apps Scriptで」と明示することで、誤りが削減されました。

開発プロセスとしては、「プロトタイプ→テスト→修正→本番」のサイクルが有効でした。まず小規模なサンプルデータで動作確認し、問題がなければ本番データで実行します。初回から本番データで実行すると、エラー時にデータを破損するリスクがあります。特にデータ削除や上書きを伴う処理では、バックアップとテスト環境での検証が不可欠です。

プログラミング知識不要論の検証

「AIがあればプログラミング知識は不要」という主張を検証するため、プログラミング未経験者10名と経験者10名に同じ自動化タスクをAI支援で実施してもらいました。タスクは中級レベル(レベル2-3)の実務的な自動化10件です。

結果は、未経験者の成功率が43.0%、経験者が87.0%となり、大きな差が生じました。未経験者が失敗した主な理由は、「AI生成コードのエラーを修正できない」「生成コードが正しいか判断できない」「要求を適切にプロンプトで表現できない」でした。経験者は、生成されたコードを読んで論理エラーを発見し、修正を指示できましたが、未経験者はエラーメッセージの意味が分からず、適切な修正指示ができませんでした。

ただし、未経験者でも基礎的なプログラミング研修(VBA/GASの基本概念、変数、条件分岐、ループを学ぶ8時間の研修)を受けた後は、成功率が71.0%に向上しました。完全な未経験では困難ですが、基礎知識があればAI支援で実用的な自動化が可能であることが実証されました。

この結果から、「AIがあればプログラミング知識は完全に不要」は誤りで、「基礎的なプログラミング知識があればAIが大幅に生産性を向上させる」が正確な評価です。プログラミング学習のハードルは大幅に下がりましたが、ゼロ知識での実用は困難であることが確認されました。

今後の技術進化と期待される機能

VBA/GAS生成AIは急速に進化しており、今後1-2年で大幅な改善が期待されます。最も注目される進化は、「既存コードの理解と拡張」機能です。現在のAIは、新規にコードを生成することは得意ですが、既存のVBA/GASプロジェクトを理解して機能追加することは苦手です。将来的には、既存のマクロプロジェクト全体を解析し、一貫性を保ちながら新機能を追加できるようになります。

第二に、「リアルタイムデバッグ支援」の実装が進んでいます。コードを実行中にエラーが発生すると、AIが自動的にエラー原因を分析し、修正案を提示する機能です。GitHub Copilotは既にこの方向で開発が進んでおり、2026年中に実用化される見込みです。

第三に、「音声・自然言語による開発」です。「売上データを月別に集計してグラフ作成して」と音声で依頼すると、AIがコードを生成・実行し、結果を確認できるインターフェースが開発されています。検証に参加した1社では、音声アシスタントとVBAの連携を試験的に導入し、音声指示でExcel自動化を実現する実験を開始しています。

また、業界特化型のファインチューニングも進展しています。会計業務に特化したVBAマクロ、人事業務に特化したGASスクリプトなど、業界固有の処理パターンを学習させたAIモデルが開発されれば、より高精度なコード生成が可能になります。

推奨される導入シナリオと注意点

VBA/GAS生成AIの導入を推奨できる条件は、第一に反復的な定型業務が多い組織です。月次処理、レポート作成、データ収集など、毎月同じ処理を手作業で行っている業務が5件以上ある場合、導入効果が大きくなります。第二に、レベル1-3の基本から中級レベルの自動化ニーズです。AIの動作率が高く、修正も容易な領域で最大の効果を発揮します。

サービス選択の基準としては、コード生成の品質と動作率を重視する場合はGitHub Copilotが最適です。Visual Studio CodeなどのIDEと統合され、リアルタイムでコード補完も可能です。汎用的な自動化やコスト重視の場合はChatGPT-4が推奨されます。月額20ドルで無制限に利用でき、VBA/GAS以外の業務にも活用できます。

導入時の注意点として、小規模なタスクから開始することを推奨します。いきなり基幹業務の複雑な自動化に挑戦すると、失敗のリスクが高まります。まず、月次レポート作成など影響範囲が限定的なタスクで経験を積み、成功事例を作ってから拡大することが賢明です。

また、生成コードの品質レビューは必須です。特にセキュリティ(機密情報の扱い)、データ整合性(削除・上書き処理)、エラー処理の3点は、人間が必ず確認すべきです。AI生成コードをそのまま本番環境で実行するのは危険であり、テスト環境での検証とコードレビューのプロセスを確立すべきです。

まとめ：VBA/GAS生成AIの実用性評価

本検証により、VBA/GAS生成AIは初回動作率54.1-68.7%、修正後の最終動作率76.5-89.3%で、実務での自動化に十分な精度に達していることが実証されました。特にレベル1-3の基本から中級レベルのタスクでは、90%以上が最終的に動作するコードになり、開発時間を64-82%削減する効果があります。

GitHub Copilotは、コード生成の品質、動作率、保守性の全てで最も優れており、本格的な開発に最適です。ChatGPT-4は、複雑な業務要件の理解力と汎用性が強みで、コストパフォーマンスに優れています。いずれのAIも、基礎的なプログラミング知識と適切なプロンプト設計を組み合わせることで、業務自動化を大幅に加速できます。

ただし、レベル4-5の高度な自動化(複雑なAPI連携、大規模データ処理)では動作率が30-40%台に低下し、専門エンジニアの支援が必要です。また、プログラミング完全未経験者が単独で実用的な自動化を実現するのは困難で、基礎研修の実施が推奨されます。反復的な定型業務を多く抱える組織は、AI生成VBA/GASの導入により大幅な業務効率化を実現できる段階に到達しています。

著者: 生成AI総合研究所編集部
最終更新: 2026年1月19日

MUST READ

生成AI、結局どう使う？を解決する
現場のための「導入・活用実践ガイド」

「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。

失敗しない「ツール選定比較表」
非専門家でもわかる「活用ステップ」
最低限知っておくべき「安全ルール」
現場が納得する「導入の進め方」

FREE

GENERATIVE AI
BUSINESS GUIDE

VBA/GAS生成AIのコード動作率検証｜エラー修正能力も含めて評価

検証設計とタスクの難易度分類

初回動作率の詳細分析

エラー修正能力の評価

VBAとGASの生成精度の比較

実務での自動化効果と導入事例

生成コードの品質と保守性の評価

VBA/GAS生成AIの比較表

効果的なプロンプトと開発プロセス

プログラミング知識不要論の検証

今後の技術進化と期待される機能

推奨される導入シナリオと注意点

まとめ：VBA/GAS生成AIの実用性評価

生成AI、結局どう使う？を解決する
現場のための「導入・活用実践ガイド」

Share

おすすめ資料

関連記事

AI翻訳の精度検証（DeepL vs ChatGPT）｜契約書・技術文書での比較

AIチャットボット導入によるCSコスト削減効果｜有人対応率の変化データ

【2026年版】中小企業の生成AI導入成功事例5選｜月50時間削減を実現したリアルな活用法

検証設計とタスクの難易度分類

初回動作率の詳細分析

エラー修正能力の評価

VBAとGASの生成精度の比較

実務での自動化効果と導入事例

生成コードの品質と保守性の評価

VBA/GAS生成AIの比較表

効果的なプロンプトと開発プロセス

プログラミング知識不要論の検証

今後の技術進化と期待される機能

推奨される導入シナリオと注意点

まとめ：VBA/GAS生成AIの実用性評価

生成AI、結局どう使う？を解決する現場のための「導入・活用実践ガイド」

Share

おすすめ資料

関連記事

AI翻訳の精度検証（DeepL vs ChatGPT）｜契約書・技術文書での比較

AIチャットボット導入によるCSコスト削減効果｜有人対応率の変化データ

【2026年版】中小企業の生成AI導入成功事例5選｜月50時間削減を実現したリアルな活用法

生成AI、結局どう使う？を解決する
現場のための「導入・活用実践ガイド」