你大概已經在 LiveKit 上跑完 POC 了。WebRTC 層運作正常,demo 裡的延遲數字看起來還可以,團隊有人搞懂了 Agents framework 接上一個基本的語音機器人。然後你試著讓真實用戶在台北打進來——裂縫就開始出現了。
中文 ASR 退回到通用模型,把「四」和「十」搞混的機率大概五成。50 個 concurrent session 看起來合理的定價,放到 500 個就翻三倍。你原本打算的自架部署,需要一個你沒有的 SRE 團隊。這些不是邊界案例,這正是團隊在第一次 LiveKit 部署大約三個月後開始搜尋替代方案的原因。
當 LiveKit Voice Agent 要 Scale 的時候,哪裡會壞
LiveKit 的開源即時基礎設施在它設計要做的事情上確實出色:低延遲的音訊和視訊路由。Agents framework 在上面加了一層可程式化介面。但生產環境裡的語音 AI Agent 遠不只是一條 WebRTC 通道——它是 ASR 引擎、LLM 調度器、TTS 渲染器、電話閘道器和商業邏輯執行環境,全部串在一起,尾延遲的預算用毫秒在算。
Gartner 2025 年 Voice AI Infrastructure 報告估計,62% 停滯的企業語音 AI 專案不是因為模型品質,而是因為整合複雜度。LiveKit 給你傳輸層,其他自己來。對需要在幾週而非幾季內上線的團隊來說,這會變成瓶頸。
我們最常看到的模式:團隊兩週內搞出一個能動的 demo,然後花三個月做電話整合、CRM 串接、和中文 ASR 調校。到了第四個月,內部推動者開始面對關於時程的尷尬提問。
評估替代方案的五個維度
1. 真實條件下的端到端延遲。 Demo 延遲和生產延遲是兩回事。要求對方提供 200+ concurrent session、PSTN 來電者的 p95 數字。超過 800ms 的來回延遲會讓對話感覺像機器人——McKinsey 2025 CX benchmarking 研究發現,延遲跨過那個門檻,感知 Agent 品質下降 40%。
2. 語言和口音覆蓋。 如果市場包含國語、台語或粵語,通用多語言 ASR 不夠用。商務對話的中文字錯率低於 8% 是基準線;多數通用引擎落在 12-15%。
3. 電話整合深度。 SIP trunking、PSTN 外撥、IVR 樹替換、轉接真人——客服中心場景的基本要求。只處理 WebRTC 的平台意味著電話橋接得你自己建和維護。
4. 定價模式透明度。 按分鐘、按 session、按座席、還是平台費加用量?真正的問題是:你能不能預測 10 倍量的帳單?STT/TTS 轉嫁費、LLM token 中繼費、錄音儲存的隱藏成本,加起來比你想的快。
5. 上線時間。 不是 demo 時間——是上線時間。安全審查、資料落地合規、監控儀表板、和 LLM provider 掛掉時的優雅降級。把這些內建處理的平台幫你省下幾個月。
LiveKit 的主要替代方案
1. Pathors
Pathors 專為國語和多語系市場的 AI 語音 Agent 部署而設計。平台處理完整管線——ASR、LLM 調度、TTS、電話——作為託管服務,不用把五個不同 SDK 縫在一起。
核心差異化:PSTN 通話端到端延遲低於 600ms、商務對話情境的中文 ASR 字錯率 5.2%、內建 CRM 整合(Salesforce、HubSpot、自訂 webhook)、按分鐘計費且無隱藏基礎設施費用。團隊通常從啟動到上線 2-4 週。
平台原生處理外撥、預約排程和轉接真人——這些功能在純傳輸層方案上需要數月客製開發。
2. 全端語音 AI 平台
幾家廠商提供端到端語音 Agent 平台,客製化程度不一。通常在英文優先市場表現較好,CJK 語言支援可能需要額外工作。定價按分鐘模式,依啟用功能 $0.05-0.15/min。
3. 可程式化語音基礎設施提供者
如果團隊有強大的基礎設施工程能力且要最大程度控制,可程式化平台提供類似 LiveKit 的積木但附帶託管。更多彈性,更多整合工作。
4. 附帶語音功能的對話式 AI 平台
傳統聊天機器人平台加上語音能力。語音品質通常落後專門方案,但如果已經在某個平台上部署文字機器人,加語音作為通道可能是最快的上市路徑。注意延遲——很多把音訊通過文字管線路由,加 200-400ms。
怎麼做決定
如果你要最大程度控制,且有 2-3 個工程師專門負責語音基礎設施,LiveKit 或類似開放框架可能還是對的。總擁有成本比第一個月看起來的高,但每個零件都是你的。
如果你需要一個月內上線到生產環境、透過電話線服務真實客戶、中文支援不會讓品牌丟臉——託管平台把 demo 和部署之間那幾個月的整合工作移除了。
值得問的問題不是哪個平台功能清單最好看,而是:晚三個月上市的代價是什麼?
2026 年語音 AI 基礎設施市場正在分化。一邊是開放傳輸層讓你什麼都能建——如果有團隊和時間。另一邊是專門平台把數月整合壓縮到幾天。勝出的平台會是讓開發者不再想基礎設施、開始想對話的那些。那個轉變——從管線到產品——才是真正的競爭優勢所在。

Brandon Lu
COO
致力於運用 AI 技術改造客戶服務和商業營運。