客戶問退貨政策,AI 自信地回答:「任何商品都可以在 90 天內全額退款。」但實際政策是 30 天、僅限換貨。這不是 bug,是 LLM 幻覺——在客服場景中,它可能引發退款糾紛、合規違規,甚至大規模的品牌信任危機。
LLM 幻覺是什麼?為什麼會發生?
大語言模型靠預測下一個 token 來生成文字。它不「知道」事實——它是在訓練資料中做模式匹配。當模型遇到訓練分佈之外的問題,或多個看似合理的答案同時存在時,它會用聽起來很有自信但其實是編造的資訊來填補空白。
在客服場景中,這表現為:
為什麼客服場景特別脆弱
不像創意寫作或腦力激盪,客服要求的是事實準確性。每一個錯誤回答都有具體的下游成本——錯誤承諾的折扣必須兌現、虛構的出貨日期侵蝕信任、誤引的合規政策可能觸發監管行動。
策略一:檢索增強生成(RAG)
不依賴模型的參數記憶,而是強制 LLM 根據檢索到的文件來回答。
運作方式
1. 客戶查詢轉換為向量嵌入
2. 嵌入在已驗證知識的向量資料庫(產品規格、政策、FAQ)中搜尋
3. 匹配度最高的文件作為上下文注入 prompt
4. LLM 基於這些文件生成有根據的回應
實務建議
策略二:輸出護欄與驗證
即使有 RAG,模型仍可能幻覺。第二層防禦在回覆送達客戶前進行驗證。
做法
策略三:信心分數與升級機制
不是每個問題都需要生成式回答。當模型不確定時,它應該說出來——或者升級。
實作方式
1. 根據檢索相關性和生成機率計算信心分數
2. 設定門檻:高信心 → 自動回覆、中等 → 附帶保留回覆、低 → 升級給真人
3. 記錄所有低信心互動,供後續檢視和訓練資料收集
4. 把幻覺率當成每週指標追蹤,與 CSAT 和解決率並列
策略四:持續監控與回饋迴圈
幻覺不是一次性要解決的問題。它會隨著你的產品目錄、政策和客戶群變化而演化。
建立回饋迴圈
讓幻覺問題變得可管理
以目前的 LLM 技術,零幻覺是不可能的。但幻覺率低於 1% 是做得到的——只要有正確的架構。關鍵是分層防禦:用 RAG 讓模型有所依據、用護欄驗證輸出、不確定時升級、並持續監控表現。
在 AI 客服上成功的企業,不是用了最先進的模型,而是對模型做了最嚴謹的工程管理。

Brandon Lu
COO
致力於運用 AI 技術改造客戶服務和商業營運。