なぜAIは自信満々に間違えるのか — 「嘘」ではなく「推測補完」という仕組み

大規模言語モデル(LLM)は、大量のテキストを学習し、「この文脈の次にくる言葉として最もそれらしいものは何か」を計算して出力します。単語や文のつながりの確率的なパターンを学習したシステムであり、外部のデータベースを参照して事実を確認するプロセスを標準では持っていません。

これは検索エンジンとは根本的に異なります。検索エンジンは「どこかに答えが書かれているページを探す」のに対し、LLMは「次にくるべき言葉を生成する」という仕組みです。

この違いがハルシネーションを生みます。AIは「この文脈ならこう続くはずだ」という予測を、事実確認なしに出力します。そのため、出力された文章の流暢さや論理の整合性とは無関係に、事実部分だけが誤っていることがあります。

文体の自信度は、正確さを保証しない

重要なのは、AIが「確信を持って間違える」ことです。「おそらく」「〜かもしれません」という留保が少ないほど正確というわけではなく、断定調でも誤りは起きます。relmea がAIエージェントを実務で運用するなかでも、詳細な根拠付きで出力された内容が、照合してみると存在しない情報だった、というケースは珍しくありません。文章の品質と事実の正確さは、別の軸として扱う必要があります。

ハルシネーションを見抜くには「型」を知ることが最初の一手

ハルシネーションはランダムに発生するわけではありません。AIが推測で埋めやすい場所には一定の型があります。その型を知ることが、ハルシネーション検証の起点になります。リスクの高い情報の種類を整理すると、次のようなパターンが浮かびます。

  • 固有名詞(人名・組織名・商品名):実在する名前に似た別の名前が出てきたり、実在する対象に事実と異なる属性が割り当てられたりします。「もっともらしい名前」を予測した結果、実在しない人物や組織が生成されることもあります。
  • 数値・データ・統計:具体的な数字がつくと信頼感が増しますが、出典がない数値は推測補完の可能性が高いです。「〜%が導入」「〜年の調査によると」という形式でも、照合できなければリスクは変わりません。
  • 日付・時期:出来事がいつ起きたか、仕様や制度がいつ変わったかは、学習データのカットオフ以降は特に危険です。カットオフ以前でも、マイナーな事象の日付は不正確になりやすいです。
  • 出典・引用:著者名・タイトル・URLなどの書誌情報は、実在する要素を組み合わせて存在しない出典が生成されることがあります。URLは形式が正しくても、リンク先が実在しない場合があります。
  • 専門性の薄い領域:法律・医療・税務・特定業界の商慣行など、学習データが薄い領域では推測補完の頻度が上がります。一般的なビジネス知識より、地域の細かな規定や特定技術規格のほうが誤りやすいのはこのためです。
  • 最新情報:AIの知識はある時点で更新が止まっています。「最新の動向」「現在の仕様」として出力されたものが、実際には古い情報であることがあります。

これらをまとめると、「固有性が高く、外部照合なしでは確認できない情報ほどリスクが高い」という原則になります。

推測補完を逆手に取る — ハルシネーション検証の設計

「危険地帯」が分かれば、検証の設計は大きく変わります。全体を均等に疑うのではなく、リスクの高い要素に検証コストを集中する、リスクベースのアプローチが取れます。実務で使えるテクニックを示します。

出典の明示を前提条件にする

プロンプトの段階で「出典が確認できないものは『不明』と明記してください」という指示を加えます。完璧に機能するわけではありませんが、AIが推測していると自覚しやすい場所で留保が入りやすくなります。「不明と書けた情報」は、検証の優先度が上がるサインです。

自己矛盾を突く問い返し

同じ問いを別の聞き方で2回投げ、出力を比較します。たとえば「ある組織の設立は◯◯年です」と出力された後に、改めて沿革を尋ねたときに異なる年が出てくれば、そこは推測補完が起きているサインです。一貫性のない箇所を手がかりに、照合する対象を絞り込めます。

「不明はそのまま不明にする」制約を入れる

AIは空白を埋めようとする傾向があります。「分からない場合は推測せず『確認が必要です』と書いてください」という制約は、ハルシネーションの量そのものを減らす効果があります。そのうえで、固有名詞・数値・出典の3項目は「必ず一次情報で照合する」と決め、一般論や手順の説明は人によるレビューを比較的軽くする、という役割分担が実務的です。

ハルシネーションを見抜く実務の確認順序

ここまでを踏まえて、実際の確認手順を整理します。AIが生成した文書を受け取ったとき、どの順序で確認するかを決めておくと、毎回の判断コストが下がります。並び順は、リスクの高い順です。

  1. 固有名詞の存在確認:人名・組織名・商品名・出典名のうち、その場で事実確認できないものをすべて洗い出します。一つでも実在しない固有名詞があれば、その周辺情報も疑います。
  2. 数値・日付・制度・仕様の照合:もっともらしい数字ほど信頼感を生む分、危険です。数字や日付を含む文は、公式情報・原文・公的データベースなどの一次情報で照合する対象として扱います。
  3. URL・リンクの実在確認:URLが含まれる場合は必ずアクセスします。形式が正しくても、ページが存在しないことは頻繁にあります。
  4. 知識範囲外の領域の再確認:自分が専門知識を持たない領域は、内容が正しく見えても推測補完の可能性があります。専門家への確認か、信頼できる一次情報との照合を追加します。

時間に制約があっても、上から順に進めることで「重大な誤りを見落とす確率」を最小化できます。

「機能」として使いこなすとは何か

ここまでハルシネーションをリスクとして扱ってきましたが、AIの「推測で補完する」性質は、用途によっては長所に転じます。

ブレインストーミングやたたき台の生成では、推測補完はむしろ有用です。アイデアの種を出す段階では、完全な正確性より「もっともらしい案を素早くたくさん出す」ことに価値があります。文章の草案、構成の叩き台、仮説のリストアップは、ハルシネーションが致命的な問題になりにくい用途です。

一方、意思決定に使う資料、外部に出す文書、法的・医療的な根拠として使う情報は、前章の照合プロセスを通すことが前提になります。

つまり、「ハルシネーションを機能として使いこなす」とは、用途に応じてAIの出力を使う場所と検証の深さを使い分けることです。同じ出力でも、「叩き台として使う」のか「確認済みの事実として使う」のかで扱いが変わります。検証の設計とは、この使い分けを仕組みとして整えることにほかなりません。

「全部信じる」でも「全部疑う」でもなく、どこを疑えばいいかを知っておく。それが、AIを実務で長く使い続けるための基本姿勢です。