顧客が返品ポリシーについて尋ねました。 AI は自信を持って「90 日以内であればどんな商品でも返品して全額返金してもらえます」と答えます。実際のポリシーは 30 日間で、交換のみです。これはバグではありません。LLM 幻覚であり、カスタマー サービスにおいては、返金に関する紛争、コンプライアンス違反、およびブランドへの大規模な損害を引き起こす可能性があります。
LLM 幻覚とは何ですか? なぜそれが起こるのですか?
大規模な言語モデルは、最も可能性の高い次のトークンを予測してテキストを生成します。彼らは事実を「知っている」のではなく、トレーニング データに対してパターン マッチングを行っています。モデルがトレーニング分布外のクエリに遭遇した場合、または複数のもっともらしい回答が存在する場合、モデルは自信に満ちているように聞こえるが捏造された情報でギャップを埋めます。
顧客サービスでは、これは次のように現れます。
CS が特に脆弱である理由
クリエイティブライティングやブレーンストーミングとは異なり、カスタマーサービスでは事実の正確さが求められます。すべての間違った回答には、具体的な下流コストが伴います。誤って約束された割引は遵守されなければならず、出荷日の捏造は信頼を損ない、コンプライアンスポリシーの誤った引用は規制措置を引き起こす可能性があります。
戦略 1: 検索拡張生成 (RAG)
RAG は、モデルのパラメトリック メモリに依存する代わりに、取得したドキュメントに基づいて LLM に応答を強制します。
仕組み
1. 顧客のクエリは埋め込みに変換されます
2. 埋め込みにより、検証済みの知識 (製品仕様、ポリシー、FAQ) のベクトル データベースが検索されます。
3. 上位に一致したドキュメントがコンテキストとしてプロンプトに挿入されます
4. LLM はこれらの文書に基づいた応答を生成します
実践的なヒント
戦略 2: 出力ガードレールと検証
RAG を使用しても、モデルは依然として幻覚を見る可能性があります。 2 番目の防御層は、出力が顧客に届く前に出力を検証します。
アプローチ
戦略 3: 信頼度のスコアリングとエスカレーション
すべてのクエリに生成された回答が必要なわけではありません。モデルが不確実な場合は、そのように伝えるか、エスカレーションする必要があります。
実装
1. 検索の関連性と��成確率に基づいて信頼度スコアを計算します。
2. しきい値の設定: 信頼度高 → 自動応答、中程度 → 警告とともに応答、低 → 人間にエスカレーション
3. レビューとトレーニング データ収集のために、信頼性の低いすべてのインタラクションを記録します。
4. CSAT および封じ込め率と並行して、幻覚率を週単位の指標として追跡する
戦略 4: 継続的なモニタリングとフィードバック ループ
幻覚は一度だけで解決できる問題ではありません。製品カタログ、ポリシー、顧客ベースの変化に応じて進化します。
フィードバック ループを構築する
幻覚を管理しやすくする
現在の LLM テクノロジーでは幻覚ゼロは達成できません。しかし、適切なアーキテクチャがあれば、幻覚率は 1% 未満になります。鍵となるのは多層防御です。RAG でモデルを接地し、ガードレールで出力を検証し、不確実な場合はエスカレーションし、パフォーマンスを継続的に監視します。
AI カスタマー サービスで成功する企業は、最先端のモデルを持っている企業ではありません。彼らは、これらのモデル��関して最も規律あるエンジニアリングを行っている企業です。

ブランドン・ルー
COO
AI テクノロジーを活用して顧客サービスとビジネス運営を変革することに情熱を注いでいます。
Pathors は、インテリジェントな音声アシスタント ソリューションで企業を支援し、顧客サービス、予約管理、ビジネス コンサルティングを合理化し、業務効率を向上させます。