英語のカスタマー サービスを完璧に処理する音声 AI プラットフォームを利用すると、95% 以上の精度、1 秒未満の応答、顧客の満足度が高まります。それを台湾に展開します。最初の電話をかけてきた人は、同じ音節の音調変化のある番地を言い、台湾の福建語の文章を混ぜて、会話のようなスピードで電話番号をガラガラと言いました。システムはその約半分を正確に転写します。発信者が電話を切りました。
これはエンジニアリングの努力の失敗で���ありません。これは、ほとんどの ASR (自動音声認識) システムの構築方法と中国語の実際の動作、特に台湾での実際の顧客サービスでの中国語の話し方との間の構造的な不一致です。
アジア太平洋市場向けに音声 AI を構築または評価している企業にとって、これらの課題を理解することは必須ではありません。感動を与える製品デモと、実際に機能する運用環境の違いは異なります。
中国 ASR の 4 つの技術的障壁
障壁 1: トーンがすべてを変える
英語はストレスを感じやすい言語です。北京語は声調言語です。このたった 1 つの違いによって、音声認識の難しさが根本的に変わります。
中国語の音節「ma」は、「母」(第 1 音調)、「麻」(第 2 音調)、「馬」(第 3 音調)、または「叱る」(第 4 音調)を意味します。流暢なスピーチでは、声調の境界がぼやけます。話者は、早口で話すときに声調を柔らかくしたり、文脈に応じて変化させたり、完全に平坦にしたりします。主に英語でトレーニングされた ASR エンジンには、これを処理するネイティブ メカニズムがありません。まったく異なる音響次元を学習する必要があります。
特に台湾では問題がさらに悪化する。台湾の北京語には、本土の普通話とは体系的に声調と音声が異なります。主に中国本土のコーパスでトレーニングされたモデルには、台湾話者を処理す���際に測定可能なバイアスが生じます。台湾モバイルの myVoca ASR モデルは、政府議事録の音声で約 97% の文字精度を達成していると報告されていますが、これはクリーンでフォーマルな音声です。騒がしいカスタマー サービスの通話では、精度が大幅に低下します。
障壁 2: コード交換が常態化している
台湾では、1 回のカスタマー サービスの通話に標準中国語と台湾福建語 (台語) の両方が含まれるのが日常的です。これはたまにあることではありません。高齢者にとっては、これがデフォルトのコミュニケーション モードです。電話をかけてきた人は、注文番号を中国語で伝え、次に福建語に切り替えて問題を説明し、その後中国語に戻って住所を伝えることがあります。
ほとんどの ASR アーキテクチャは、単一言語入力を前提としています。 1 つの発話内で 2 つの言語が交互に使用されると、信頼度スコアが崩壊します。このモデルは、ある言語の音響空間から別の言語の音響空間に音素を強制的に当てはめようとするため、出力が文字化けします。
公開されている福建語音声コーパスは依然として不足しています。フォルモサ音声認識チャレンジは、台湾語音声認識に関する学術的進歩を推進しましたが、コード交換された北京語と福建語の会話 (顧客サービスの実際のパターン) のラベル付きデータは、トレーニング セットには事実上存在しません。
障壁 3: 固有名詞は弱点です
顧客サービスにおいて最も重要な情報は、住所、個人名、製品識別子である傾向があります。これらはまさに、ASR が中国語で最も扱いにくいものです。
台湾の住所「三重區重新路三段」(三重區重新路三段) を考えてみましょう。 「重」の文字は、異なる発音で 2 回表示されます (chóng と zhòng)。数字「三」は、さまざまな意味上の役割で繰り返されます。完全な住所形式 (地区、道路、セクション、車線、路地、番号、階) では、驚くべき密度の数字と固有名詞が短い発話に詰め込まれています。数字を 1 つ聞き間違えると、住所全体が無効になります。
個人名はもっとひどい。中国人の名前は何千もの可能な文字から構成されており、その多くは同音異義語です。 ASR エンジンは、見慣れない名前に遭遇すると、デフォルトで最も確率の高い同音異義語を使用しますが、これはほとんどの場合間違っています。会話フローにカスタム辞書または確認ループを組み込むことなく、この問題を解決する確実な方法はありません。
障壁 4: 電話の音声品質とトレーニング データの比較
この問題はすべての言語にまたがりますが、意味を伝える声調の区別がまさに電話コーデックによって最も劣化する周波数であるため、中国語 ASR に特に大きな影響を及ぼします。
ほとんどの ASR モデルは、ポッドキャスト、YouTube、16kHz 以上のサンプリング レートでのスタジオ録音などの広帯域オーディオでトレーニングされています。実際の電話通話は 8kHz 狭帯域で送信され、音の情報を伝える周波数範囲が圧縮されます。背景ノイズ、エコー、信号ドロップアウト、および携帯電話のマイクの音響特性により、入力はさらに劣化します。
クリーンなオーディオで 95% の精度でベンチマークされたモデルは、実際の電話入力では簡単に 80% を下回る可能性があります。あらゆる単語の誤認識がトランザクションの失敗を意味する可能性がある顧客サービス アプリケーションの場合、そのギャップは容認できません。
中国語市場向けの音声 AI を評価する際に尋ねるべきこと
台湾やその他の北京語を話す市場に展開する音声 AI プラットフォームを評価している場合、5 つの質問によって本格的なソリューションと魅力的なデモが区別されます。
ASR にはどのようなトレーニング データが使用されましたか? 台湾固有の微調整を行わない一般的な多言語モデル (Whisper、Google STT) が答えである場合、台湾語の音声パターンには測定可能な精度のギャップがあることが予想されます。
コード切り替えはどのように処理しますか? 「北京語と福建語をサポートします」は、「文中の言語切り替えを処理できます」と同じではありません。後者には、ほとんどのプラットフォームにはない特殊なモデル アーキテクチャとトレーニング データが必要です。
電話品質の音声の精度はどのくらいですか? クリーンなテスト セットではなく、実際の通話録音に対するベンチマークが必要です。ラボの精度と電話回線の精度の差は、通常 10 パーセント ポイントを超えます。
カスタム辞書をサポートできますか? 製品名、住所、企業固有の用語 - これらは認識パイプラインに挿入できる必要があります。この機能がないと、システムは最も重要な情報に対して常に失敗します。
エンドツーエンドの遅延はどれくらいですか? 応答に 2 秒かかる場合、音声認識の精度は意味がありません。自然な会話のしきい値は、話し終えてから応答が始まるまで約 800 ミリ秒です。中国語で精度と速度の両方を達成するには、意図的なアーキテクチャ上のトレードオフが必要です。
ローカリゼーションは翻訳ではありません
核となる洞察はシンプルですが、見落とされがちです。中国語市場向けに音声 AI をローカライズすることは翻訳の問題ではありません。それはリエンジニアリングの問題です。
音響モデルのトレーニング データ、言語モデルの事前分布、発音辞書、会話フローの設計、レイテンシの最適化といったスタックのすべての層を、ターゲット言語と方言に合わせて再構築する必要があります。北京語サポートを機能マトリックスのチェックボックスとして扱う企業は、運用環境で常にパフォーマンスを下回ります。
これが、これらの課題に根本から取り組むアジアネイティブの音声 AI 企業のエコシステムが成長しているのを私たちが見ている理由です。 Taiwan Mobile の myVoca から ASUS 子会社の AICS、そして特定の垂直ユースケース向けに構築する専門スタートアップに至るまで、共通しているのは、ローカル音声データとドメイン固有の最適化への多大な投資です。
Pathors では、アクセントを考慮した ASR チューニング、カスタム辞書のサポート、電話グレードのオーディオの遅延の最適化など、台湾標準語のコンテキストに合わせて音声 AI ���ラットフォームを初日から設計しました。なぜなら、台湾の顧客にサービスを提供するあらゆる企業にとって、発信者の発言を正確に理解する能力は、他のすべての基礎となるからです。

ブランドン・ルー
COO
AI テクノロジーを活用して顧客サービスとビジネス運営を変革することに情熱を注いでいます。
Pathors は、インテリジェントな音声アシスタント ソリューションで企業を支援し、顧客サービス、予約管理、ビジネス コンサルティングを合理化し、業務効率を向上させます。