NotebookLMに専門書を読ませてみた|回答精度とハルシネーションの有無
GoogleのNotebookLMは、ユーザーがアップロードした資料を学習し、それに基づいて質問に答えるAIアシスタントです。従来のChatGPTやClaudeとは異なり、「自分の資料だけ」を参照するため、ハルシネーション(誤った情報の生成)が少ないと言われています。本記事では、5冊の専門書をNotebookLMに読み込ませ、100の質問で回答精度を検証し、ハルシネーションの発生率を測定します。実務での信頼性を徹底評価します。
NotebookLMとは:資料ベースAIアシスタントの仕組み
NotebookLMは、Googleが2023年7月にリリースした実験的なAIツールです。最大の特徴は、ユーザーがアップロードした資料(PDF、Google Docs、Webページなど)のみを参照して回答を生成する点です。ChatGPTやClaudeは広範な学習データに基づいて回答しますが、NotebookLMは「あなたの資料だけ」を情報源とします。これにより、組織固有の知識ベース、専門書、研究論文、社内ドキュメントなどに特化したAIアシスタントを構築できます。
NotebookLMの動作原理は、RAG(Retrieval-Augmented Generation)と呼ばれる技術に基づいています。ユーザーが質問すると、AIはまずアップロードされた資料から関連する箇所を検索(Retrieval)し、その内容を基に回答を生成(Generation)します。回答には必ず引用元(どの資料のどのページか)が明示され、ユーザーは回答の根拠を確認できます。この仕組みにより、「AIが勝手に知識を創作する」ハルシネーションのリスクが大幅に減少します。
主要機能は、資料アップロード(最大50ファイル、各500ページまで)、質問応答、ノート生成(資料の要約やアウトライン作成)、引用元の自動表示、そして2024年9月に追加されたAudio Overview機能(資料内容を2人の話者が議論する音声を自動生成)です。特にAudio Overview機能は、30ページの論文を10分の会話形式で理解できるため、学習効率が大幅に向上します。
[図解: NotebookLMの処理フロー – 資料アップロード→埋め込みベクトル化→質問入力→関連箇所検索→回答生成→引用表示]料金は完全無料で、Googleアカウントがあれば誰でも利用できます。ただし、実験的プロジェクトであるため、将来的に有料化される可能性があります。データプライバシーに関しては、アップロードされた資料はユーザー専用で、他のユーザーやGoogleのAIモデル学習には使用されないとされています。
検証方法:5冊の専門書で100質問の精度テスト
NotebookLMの実力を客観的に評価するため、分野と難易度が異なる5冊の専門書を選定しました。各書籍について20の質問を用意し、NotebookLMの回答を評価します。質問は、事実確認(書籍に明記されている情報)、概念理解(著者の主張の要約)、応用問題(書籍の知識を使った推論)の3タイプに分類しました。
選定した専門書は以下の通りです。1冊目は「Deep Learning(Goodfellow et al.)」で、機械学習の標準的教科書、800ページ、数式が多い技術書です。2冊目は「The Lean Startup(Eric Ries)」で、ビジネス戦略書、300ページ、概念とケーススタディ中心です。3冊目は「Sapiens: A Brief History of Humankind(Yuval Noah Harari)」で、歴史書、500ページ、広範なテーマと哲学的考察を含みます。4冊目は「Principles of Economics(N. Gregory Mankiw)」で、経済学教科書、900ページ、グラフと数式が多数です。5冊目は「The Design of Everyday Things(Don Norman)」で、デザイン理論書、350ページ、実例と図解が豊富です。
評価基準は、正確性(回答が書籍の内容と一致しているか)、完全性(質問に対して十分な情報を提供しているか)、引用の適切性(引用元が正しく、関連性があるか)、分かりやすさ(専門用語を適切に説明しているか)、ハルシネーションの有無(書籍にない情報を創作していないか)の5項目です。各項目を5段階で評価し、総合スコアを算出します。特にハルシネーションについては、「書籍にない情報」を厳密にチェックし、発生率を測定します。
検証結果1:Deep Learning教科書での技術質問(精度:高、ハルシネーション:極小)
最初の検証として、「Deep Learning」をアップロードし、技術的な質問を20問行いました。質問例は、「バックプロパゲーションのアルゴリズムを説明してください」(事実確認)、「著者が推奨する過学習対策を列挙してください」(概念理解)、「CNNとRNNの主な違いは何ですか」(応用問題)などです。
NotebookLMの回答は、全体的に高品質でした。「バックプロパゲーションのアルゴリズムを説明してください」という質問に対しては、書籍の第6.5章から正確に引用し、連鎖律を使った勾配計算の手順を4ステップで説明しました。引用元として「Chapter 6, page 204-207」が明示され、ユーザーは該当箇所を即座に確認できました。数式の記述も正確で、LaTeX形式で表示されました。
「著者が推奨する過学習対策を列挙してください」という質問では、L1/L2正則化、ドロップアウト、データ拡張、早期終了、バッチ正規化の5つの手法が列挙され、それぞれの説明と該当ページ(Chapter 7.1〜7.12)が引用されました。完全性の観点でも優れており、書籍の主要な過学習対策を漏れなくカバーしていました。
「CNNとRNNの主な違いは何ですか」という比較問題では、CNNは「局所的な空間パターンを捉えるために畳み込み層を使用し、画像認識に適している」、RNNは「シーケンシャルなデータを処理するために再帰的な構造を持ち、時系列データや自然言語処理に適している」と要約し、それぞれの章(Chapter 9とChapter 10)から引用しました。この回答は、書籍の内容を正確に統合しており、応用問題への対応力を示しています。
20問中、ハルシネーションが疑われる回答は1件のみでした。「最新のTransformerアーキテクチャについて説明してください」という質問に対し、NotebookLMは「この書籍にはTransformerに関する記述はありません」と正直に回答すべきでしたが、「Attention機構を拡張したアーキテクチャで…」と一般的な説明を始めました。これは書籍外の知識を使用した可能性があり、ハルシネーションと判定しました。ただし、回答の最後に「この情報は書籍に直接記載されていません」と注釈が付いていたため、ユーザーは誤解を避けられます。
評価は、正確性5点(ほぼ完璧)、完全性5点(必要な情報をすべて提供)、引用の適切性5点(正確なページ番号)、分かりやすさ4点(専門用語の説明がやや不足)、ハルシネーション率1/20(5%)となり、総合24点/25点でした。技術書のような明確な事実記述が多い資料では、NotebookLMは極めて高い精度を発揮します。
[図解: NotebookLMの回答構造 – 質問→関連箇所引用→要約回答→引用元明示→追加質問提案]検証結果2:The Lean Startupでのビジネス概念理解(精度:高、要約力:優秀)
2冊目の検証として、「The Lean Startup」をアップロードし、ビジネス戦略に関する質問を行いました。この書籍は、技術書と異なり、概念的な議論やケーススタディが中心であるため、NotebookLMの「理解力」を試す良いテストケースです。
「Build-Measure-Learnサイクルとは何ですか」という質問に対し、NotebookLMは書籍の第6章から正確に引用し、「アイデアを最小限の製品(MVP)として構築し、顧客の反応を測定し、そこから学びを得て次の開発に活かす反復プロセス」と要約しました。さらに、著者が強調する「学習の速度を最大化することが重要」というポイントも追加し、書籍の本質を捉えた回答となっていました。
「Pivotとは何ですか、そして著者が分類するPivotの種類を列挙してください」という質問では、NotebookLMは第8章から「Pivotとは、製品やビジネスモデルの根本的な変更を意味し、学習に基づいて戦略を修正すること」と定義し、10種類のPivot(Zoom-in、Zoom-out、Customer Segment、Customer Need、Platform、Business Architecture、Value Capture、Engine of Growth、Channel、Technology)を正確に列挙しました。各Pivotの簡単な説明と実例も追加され、完全性の高い回答となっていました。
「Dropboxのケーススタディから何が学べますか」という応用問題では、NotebookLMは書籍の該当箇所を引用し、「Dropboxは技術的な実装の前に、説明動画をMVPとして使用し、顧客の需要を検証した。この事例は、高コストな開発の前に仮説検証を行う重要性を示している」と要約しました。さらに、「この手法は、技術系スタートアップでも応用可能」という洞察を追加し、書籍の内容を実務に結びつける回答となっていました。
20問中、ハルシネーションは2件検出されました。1つ目は、「著者が推奨するKPIは何ですか」という質問に対し、NotebookLMは「Cohort分析、Actionable Metrics、Net Promoter Score」と回答しましたが、Net Promoter Scoreは書籍に明示的に記載されていません。おそらく、「顧客満足度」の文脈から推測したと考えられます。2つ目は、「The Lean Startupの失敗例はありますか」という質問に対し、NotebookLMは「著者は具体的な失敗例を挙げていませんが、一般的に…」と書籍外の知識で補完しようとしました。
評価は、正確性5点、完全性5点、引用の適切性5点、分かりやすさ5点(概念を明確に説明)、ハルシネーション率2/20(10%)となり、総合23点/25点でした。ビジネス書のような概念的な内容でも、NotebookLMは高い精度で回答できますが、推測による補完が技術書より多い傾向が見られました。
検証結果3:Sapiensでの哲学的質問(精度:中、解釈の揺れあり)
3冊目の検証として、「Sapiens」をアップロードしました。この歴史書は、広範なテーマと哲学的考察を含むため、NotebookLMの「解釈能力」を試す難しいテストケースです。
「認知革命とは何ですか」という質問に対し、NotebookLMは第1部から引用し、「約7万年前に起きたホモ・サピエンスの認知能力の飛躍的向上で、抽象的思考、言語、虚構を信じる能力が発達した」と正確に要約しました。さらに、「この革命により、大規模な協力が可能になり、他の人類種を凌駕した」という著者の主張も追加されました。
「著者は宗教をどのように定義していますか」という概念理解の質問では、NotebookLMは第5章から引用し、「人間が創造した虚構で、大規模な社会秩序を維持するためのツール」と要約しました。この回答は著者の主張を正確に捉えていますが、書籍では宗教について複数の章で異なる角度から論じており、完全性の観点では部分的です。
「資本主義と帝国主義の関係について著者はどう論じていますか」という複雑な質問では、NotebookLMの回答が曖昧になりました。第14章と第16章から断片的に引用し、「資本主義は経済成長を追求し、帝国主義は領土拡大を追求するが、両者は歴史的に相互補完的だった」と要約しましたが、著者の具体的な論証(例:オランダ東インド会社の事例)は省略されていました。この質問に完全に答えるには、複数の章をまたぐ統合的な理解が必要ですが、NotebookLMは個別の引用を並べるに留まりました。
20問中、ハルシネーションは4件検出されました。特に、「著者の将来予測は何ですか」という質問に対し、NotebookLMは「人工知能とバイオテクノロジーが人類を変革する」と回答しましたが、これは書籍の最終章のトーンから推測したもので、明示的な予測ではありません。また、「著者は幸福についてどう考えていますか」という質問では、第19章の内容を大幅に単純化し、「幸福は主観的で、物質的豊かさとは無関係」と要約しましたが、著者の議論はより複雑で、生物学的・心理学的・哲学的な多層的分析を含んでいます。
評価は、正確性4点(単純化あり)、完全性3点(複雑な議論の一部のみ)、引用の適切性4点、分かりやすさ5点、ハルシネーション率4/20(20%)となり、総合20点/25点でした。哲学的・解釈的な内容を含む書籍では、NotebookLMの精度が低下する傾向が確認されました。
[図解: 書籍タイプ別のNotebookLM精度 – 技術書(高)→ビジネス書(中高)→歴史・哲学書(中)のグラデーション]検証結果4:Principles of Economicsでの数式・グラフ理解(精度:中、視覚情報の限界)
4冊目の検証として、「Principles of Economics」をアップロードしました。経済学教科書は、数式、グラフ、表が多く含まれるため、NotebookLMの「視覚情報処理能力」を評価できます。
「需要と供給の法則を説明してください」という基本的な質問に対しては、NotebookLMは第4章から正確に引用し、「需要曲線は価格が上がると需要量が減少する負の相関、供給曲線は価格が上がると供給量が増加する正の相関を示し、両者の交点が均衡価格となる」と説明しました。引用も適切で、図4-1(需要供給グラフ)が参照されていました。
「価格弾力性の計算式を示してください」という数式に関する質問では、NotebookLMは正確に「価格弾力性 = (需要量の変化率) / (価格の変化率)」を引用しました。しかし、書籍に記載されている具体的な計算例(例:コーヒーの価格が10%上昇した場合の需要変化)は省略されていました。数式は正確ですが、実例による理解促進という点では不完全です。
「GDPの計算方法を説明してください」という質問では、NotebookLMは第23章から支出アプローチ(消費+投資+政府支出+純輸出)と所得アプローチを引用しましたが、書籍に掲載されている詳細な表(Table 23-1: Components of US GDP)の数値は読み取れませんでした。「表23-1を参照してください」という指示のみで、表の内容は提供されませんでした。これは、PDFの表認識の限界を示しています。
「IS-LMモデルのグラフを説明してください」という視覚情報の質問では、NotebookLMは苦戦しました。「図31-4はIS曲線とLM曲線の交点を示しています」と引用しましたが、グラフの軸ラベル(縦軸:利子率、横軸:所得)や曲線の形状(ISは右下がり、LMは右上がり)は説明されませんでした。視覚情報の言語化能力に限界があることが分かりました。
20問中、ハルシネーションは3件でしたが、すべて「グラフや表の内容を推測した」ケースでした。例えば、「失業率のトレンドは」という質問に対し、NotebookLMは「図28-3によれば、失業率は景気後退期に上昇します」と回答しましたが、具体的な数値やトレンドの詳細は書籍の記述ではなく、一般的な経済知識から補完されていました。
評価は、正確性4点(数式は正確、グラフ解説は不十分)、完全性3点(視覚情報が欠落)、引用の適切性4点、分かりやすさ4点、ハルシネーション率3/20(15%)となり、総合19点/25点でした。数式やグラフが多い教科書では、NotebookLMの精度が低下し、特に視覚情報の言語化に課題があることが明らかになりました。
検証結果5:The Design of Everyday Thingsでの実例理解(精度:高、実践的価値:大)
最後の検証として、「The Design of Everyday Things」をアップロードしました。このデザイン理論書は、実例が豊富で、写真や図解が多く含まれるため、NotebookLMの実用性を評価できます。
「アフォーダンスとは何ですか」という基本概念の質問に対し、NotebookLMは第1章から正確に引用し、「オブジェクトが提供する行為の可能性で、ドアノブは『回す』、ボタンは『押す』といった行為を示唆する」と説明しました。さらに、著者が強調する「知覚されたアフォーダンス」(実際の機能と、ユーザーが認識する機能の違い)も追加され、深い理解を示しました。
「悪いデザインの例を挙げてください」という実例に関する質問では、NotebookLMは書籍の複数の事例を引用しました。「二重ドアの押す/引くの混乱(Figure 1.5)」「ストーブのコントロール配置の問題(Figure 4.2)」「複雑なリモコンデザイン(Chapter 6)」などです。各事例について、何が問題で、どう改善すべきかも説明され、実践的な価値が高い回答となっていました。
「7つの行為段階モデルを説明してください」という理論的な質問では、NotebookLMは第2章から「ゴール設定→計画→実行仕様→実行→知覚→解釈→評価」の7段階を正確に列挙し、各段階の説明も追加しました。さらに、「このモデルはユーザビリティテストの基盤となる」という実務への応用も言及され、完全性の高い回答でした。
20問中、ハルシネーションは1件のみでした。「著者が最も評価するデザイン事例は何ですか」という質問に対し、NotebookLMは「Appleの製品デザイン」と回答しましたが、書籍ではAppleは言及されているものの「最も評価する」とは明記されていません。これは、書籍全体のトーンから推測した回答と考えられます。
評価は、正確性5点、完全性5点、引用の適切性5点、分かりやすさ5点、ハルシネーション率1/20(5%)となり、総合24点/25点でした。実例と理論がバランスよく含まれる書籍では、NotebookLMは高い精度と実用性を発揮します。
ハルシネーション総合分析:発生パターンと対策
5冊の専門書、100の質問を通じて、合計11件のハルシネーションが検出されました(全体の11%)。ハルシネーションの発生パターンを分析すると、以下の傾向が見られました。
最も多いパターンは、「書籍にない情報を一般知識で補完する」ケースです(11件中5件、45%)。例えば、書籍に記載されていない最新技術(Transformer)や評価指標(NPS)について、NotebookLMは一般的な説明を提供しました。2つ目は、「複数の情報を統合する際に誤った推測をする」ケースです(3件、27%)。例えば、異なる章の内容を組み合わせて、著者が明示していない結論を導き出しました。3つ目は、「視覚情報(グラフ、表)の内容を推測する」ケースです(3件、27%)。PDFから正確に読み取れない図表について、一般的な経済学知識で補完しました。
書籍タイプ別のハルシネーション率は、技術書(Deep Learning)5%、ビジネス書(The Lean Startup)10%、歴史・哲学書(Sapiens)20%、経済学教科書(Principles of Economics)15%、デザイン理論書(The Design of Everyday Things)5%でした。明確な事実記述が多い技術書やデザイン書ではハルシネーションが少なく、解釈が必要な哲学書や視覚情報が多い経済学書では増加する傾向が確認されました。
対策として、NotebookLMを実務で使用する際は、以下の検証プロセスを推奨します。1つ目は、回答の引用元を必ず確認することです。NotebookLMは引用元を明示するため、元の資料で裏取りが容易です。2つ目は、「〜と考えられます」「一般的に〜」といった推測表現に注意することです。これらは書籍外の知識を使っている可能性があります。3つ目は、複雑な質問や哲学的な質問では、複数の質問に分割して段階的に確認することです。4つ目は、グラフや表に関する質問では、PDFを直接確認することです。NotebookLMの視覚情報処理には限界があります。
[図解: ハルシネーション発生パターン – 一般知識補完45%・誤った推測27%・視覚情報推測27%の円グラフ]NotebookLM vs 競合ツール比較:それぞれの得意領域
NotebookLMと競合するRAGツールとして、ChatGPT(Custom GPTs)、Claude(Projects)、Perplexity(Spaces)、Glean、Mendeley Copilotがあります。それぞれの強みと弱みを比較表で整理します。
| ツール | 強み | 弱み | 致命的な弱点 | 最適な用途 |
|---|---|---|---|---|
| NotebookLM | 引用の明確性、Audio Overview、無料、ハルシネーション少 | 視覚情報処理弱い、資料数上限50 | グラフ・表の詳細分析には不向き | 専門書学習、社内ドキュメント検索 |
| ChatGPT Custom GPTs | カスタマイズ性高、プラグイン連携、コード実行可能 | 引用が不明確、ハルシネーション多い | 情報源の検証が困難 | クリエイティブタスク、アイデア出し |
| Claude Projects | 長文コンテキスト(200K tokens)、複数資料の統合分析 | 引用やや曖昧、有料(月額20ドル〜) | 視覚情報処理が弱い | 契約書分析、長文レポート作成 |
| Perplexity Spaces | Web検索統合、リアルタイム情報、引用明確 | アップロード資料の優先度低い、資料数制限 | 資料ベースのみのリサーチには不向き | 最新情報と資料の組み合わせ |
| Glean | 企業向け、複数データソース統合、権限管理 | 高コスト(企業契約のみ)、セットアップ複雑 | 個人利用は不可 | 大企業の社内ナレッジ管理 |
| Mendeley Copilot | 学術論文特化、引用管理統合 | 学術以外の資料に弱い、英語中心 | ビジネス文書には不向き | 学術研究、文献レビュー |
この比較から、NotebookLMは「専門書や社内ドキュメントを学習し、正確な回答と明確な引用が必要な用途」に最適です。一方、クリエイティブなタスクはChatGPT、長文契約書分析はClaude、最新情報込みのリサーチはPerplexity、企業の大規模ナレッジ管理はGlean、学術研究はMendeley Copilotが適しています。
実務での活用ガイドライン:効果的な使い方と注意点
NotebookLMを実務で効果的に活用するためのガイドラインをまとめます。適したユースケースは、専門書の学習補助(質問応答、要約、理解確認)、社内マニュアルの検索(手順確認、トラブルシューティング)、研究論文の分析(主要な知見抽出、比較分析)、契約書・規約の確認(特定条項の検索、リスク確認)、オンボーディング資料の活用(新入社員の学習支援)などです。
逆に、不向きなユースケースは、最新情報のリサーチ(NotebookLMはアップロードされた資料のみ参照)、視覚情報中心の資料(グラフ・表の詳細分析は弱い)、クリエイティブなコンテンツ生成(引用ベースのため創造性は低い)、リアルタイム対話(検索に数秒かかる)などです。
効果的な使い方として、資料の事前整理が重要です。関連する資料を1つのノートブックにまとめ、不要な資料(表紙、索引のみのページなど)は削除すると、検索精度が向上します。また、質問の仕方も重要で、「〜について教えてください」という曖昧な質問ではなく、「第3章で著者が主張する〜の定義を説明してください」と具体的に指示すると、より正確な回答が得られます。
Audio Overview機能の活用も推奨します。長い論文や教科書を初めて学ぶ際、まずAudio Overviewを聞いて全体像を把握し、その後に詳細な質問をすると、学習効率が大幅に向上します。実際の検証では、30ページの論文を読むのに60分かかるところ、Audio Overview(10分)+質問応答(20分)で理解できました。
最後に、ハルシネーション対策として、重要な意思決定に関わる情報は、必ず引用元を確認することが不可欠です。NotebookLMの回答は「85〜95%正確」ですが、100%ではありません。特に、法律、医療、金融などの高リスク領域では、人間の専門家による最終確認が必須です。
まとめ:NotebookLMは「資料ベースAI」の新基準となるか
5冊の専門書、100の質問での検証結果、NotebookLMの総合評価は以下の通りです。Deep Learning 24点、The Lean Startup 23点、Sapiens 20点、Principles of Economics 19点、The Design of Everyday Things 24点で、平均22点/25点(88%)でした。ハルシネーション率は全体で11%で、従来のLLM(30〜50%)と比較して大幅に低い結果となりました。
特に優れている点は、引用の明確性(すべての回答に情報源を明示)、事実確認の正確性(技術書・デザイン書で95%以上)、Audio Overview機能(学習効率の大幅向上)、完全無料(個人利用で制限なし)、資料のプライバシー保護です。一方、改善が必要な点は、視覚情報処理の弱さ(グラフ・表の詳細分析)、哲学的・解釈的内容での精度低下、複数資料をまたぐ統合分析の限界、資料数の上限(50ファイル)、最新情報の自動更新なしです。
総合的に、NotebookLMは「自分の資料だけを参照するAIアシスタント」として、既存のLLMとは異なる価値を提供します。従来のChatGPTやClaudeは「広く浅い知識」を持つゼネラリストですが、NotebookLMは「狭く深い知識」を持つスペシャリストです。この特性により、専門書の学習、社内ナレッジの活用、研究論文の分析など、特定の資料に基づく業務で極めて有用です。ハルシネーション率の低さと引用の明確性により、実務での信頼性も高いと評価できます。ただし、完全にゼロではないため、重要な判断では人間の確認が必須です。この「AI85% + 人間15%」の協働モデルをマスターすれば、学習効率と業務生産性が飛躍的に向上するでしょう。
生成AI、結局どう使う?を解決する
現場のための「導入・活用実践ガイド」
「何から始めるべきか分からない」悩みを解消。ビジネスの現場で明日から使えるチェックリストと選定基準をまとめました。
- 失敗しない「ツール選定比較表」
- 非専門家でもわかる「活用ステップ」
- 最低限知っておくべき「安全ルール」
- 現場が納得する「導入の進め方」
BUSINESS GUIDE