고객이 반품 정책에 대해 문의합니다. AI는 "모든 상품을 90일 이내에 반품하시면 전액 환불받을 수 있습니다."라고 자신 있게 대답합니다. 실제 정책은 30일이며 교환만 가능합니다. 이는 버그가 아닙니다. 이는 LLM 환각이며, 고객 서비스에서 환불 분쟁, 규정 준수 위반 및 대규모 브랜드 손상을 유발할 수 있습니다.
LLM 환각이란 무엇이며 왜 발생합니까?
대규모 언어 모델은 가장 가능성이 높은 다음 토큰을 예측하여 텍스트를 생성합니다. 그들은 사실을 "알지" 못합니다. 즉, 훈련 데이터와 패턴을 일치시킵니다. 모델이 훈련 분포 외부의 쿼리를 만나거나 그럴듯한 답변이 여러 개 존재하는 경우 자신감 있게 들리지만 조작된 정보로 공백을 채웁니다.
고객 서비스에서 이는 다음과 같이 나타납니다.
CS가 특히 취약한 이유
창의적인 글쓰기나 브레인스토밍과 달리 고객 서비스에서는 사실에 기반한 정확성이 요구됩니다. 모든 잘못된 답변에��� 구체적인 후속 비용이 발생합니다. 잘못 약속한 할인은 존중되어야 하며, 조작된 배송 날짜는 신뢰를 약화시키고, 잘못 인용된 규정 준수 정책은 규제 조치를 촉발할 수 있습니다.
전략 1: 검색 증강 생성(RAG)
RAG는 모델의 파라메트릭 메모리에 의존하는 대신 LLM이 검색된 문서를 기반으로 응답하도록 강제합니다.
작동 방식
1. 고객문의를 임베딩으로 변환
2. 임베딩은 검증된 지식(제품 사양, 정책, FAQ)의 벡터 데이터베이스를 검색합니다.
3. 가장 일치하는 문서가 프롬프트에 컨텍스트로 삽입됩니다.
4. LLM은 해당 문서를 기반으로 응답을 생성합니다.
실용적인 팁
전략 2: 출력 가드레일 및 검증
RAG를 사용하더라도 모델은 여전히 환각을 느낄 수 있습니다. 두 번째 방어 계층은 출력이 고객에게 도달하기 전에 검증합니다.
접근 방식
전략 3: 신뢰도 평가 및 확대
모든 쿼리에 생성된 답변이 필요한 것은 아닙니다. 모델이 불확실할 경우 그렇게 말하거나 에스컬레이션해야 합니다.
구현
1. 검색 관련성과 생성 확률을 기반으로 신뢰도 점수를 계산합니다.
2. 임계값 설정: 높은 신뢰도 → 자동 응답, 중간 → 주의 사항에 따라 응답, 낮음 → 인간에게 에스컬레이션
3. 검토 및 교육 데이터 수집을 위해 신뢰도가 낮은 모든 상호 작용을 기록합니다.
4. CSAT 및 봉쇄율과 함께 환각률을 주간 지표로 추적합니다.
전략 4: 지속적인 모니터링 및 피드백 루프
환각은 일회성 문제로 해결되는 문제가 아닙니다. 제품 카탈로그, 정책 및 고객 기반이 변경됨에 따라 발전합니다.
피드백 루프 구축
환각을 관리 가능하게 만들기
현재 LLM 기술로는 환각 제로를 달성할 수 없습니다. 그러나 올바른 아키텍처를 사용하면 환각률이 1% 미만입니다. 핵심은 계층화된 방어입니다. RAG로 모델을 기반으로 하고, 가드레일로 출력을 검증하고, 불확실할 경우 에스컬레이션하고, 지속적으로 성능을 모니터링합니다.
AI 고객 서비스로 성공하는 기업은 가장 앞선 모델을 갖춘 기업이 아니다. 그들은 해당 모델에 대해 가장 엄격한 엔지니어링을 갖춘 사람들입니다.

브랜든 루
구구
AI 기술을 활용하여 고객 서비스와 비즈니스 운영을 혁신하는 데 열정을 갖고 있습니다.