Pathors AI は複雑な会話や機密性の高い会話を処理できますか?

Pathors AI は、支払いの督促、回収、リードの認定など、大量の日常的な通話に最適です。当社は対話型の会話やほとんどの異議申し立てに対応しますが、販売の成約など、専門知識が必要な通話は訓練を受けた人間のエージェントに引き継ぐ必要があります。

Pathors AI は複数の通話を同時に処理できますか?

はい。当社は高い同時実行性をサポートしており、100 を超える同時呼び出しによる大量の操作向けに設計されています。

処理するデータの安全性はどの程度ですか?

標準的な導入では、高セキュリティのクラウドインフラストラクチャと信頼できるトップ層の AI プロバイダー上で実行されます。企業のお客様には、オンプレミスのオプションも提供しています。

Pathors AI は従来の IVR システムと何が違うのでしょうか?

Pathors AI は、厳格なメニューの代わりに、自然な会話を使用して意図を理解し、リクエストを解決します。これにより通常、従来の IVR よりも高いエンゲージメントが促進されます。

前方展開エンジニアとは何ですか?

Forward Deployed Engineer は、チームと協力して、検出、統合、テスト、起動といった本番環境に対応した音声ワークフローを出荷する実践的なエンジニアです。

前方展開されたエンジニアを使用すると、どれくらい迅速に実装できるでしょうか?

タイムラインは範囲とユースケースによって異なります。短い発見インタビューの後、計画を確認します。単純なワークフローの場合、一部のパイロットはわずか 2 週間で稼働可能ですが、より深い統合にはさらに時間がかかります。

導入後のサポートはどのようなものがありますか？

前方展開されたエンジニアの関与により、パフォーマンスの監視、プロンプトとフローの調整、エッジケースの反復を支援して、リリース後も結果が向上し続けるようにします。

前方展開エンジニアとセルフサービスを選択するのはどのような場合ですか?

より迅速な価値実現、より深い統合、またはより複雑なワークフローが必要な場合は、前方展開エンジニアを選択してください。セルフサービスは、社内で構築することを好む単純なパイロットやチームに最適です。

音声AI2025 年 9 月 5 日

音声 AI が北京語で失敗する理由: グローバルプラットフォームが語らない技術的障壁

Q: 処理するデータの安全性はどの程度ですか?

標準的な導入では、高セキュリティのクラウド インフラストラクチャと信頼できるトップ層の AI プロバイダー上で実行されます。企業のお客様には、オンプレミスのオプションも提供しています。

ブランドン・ルー

COO

英語のカスタマーサービスを完璧に処理する音声 AI プラットフォームを利用すると、95% 以上の精度、1 秒未満の応答、顧客の満足度が高まります。それを台湾に展開します。最初の電話をかけてきた人は、同じ音節の音調変化のある番地を言い、台湾の福建語の文章を混ぜて、会話のようなスピードで電話番号をガラガラと言いました。システムはその約半分を正確に転写します。発信者が電話を切りました。

これはエンジニアリングの努力の失敗で��ありません。これは、ほとんどの ASR (自動音声認識) システムの構築方法と中国語の実際の動作、特に台湾での実際の顧客サービスでの中国語の話し方との間の構造的な不一致です。

アジア太平洋市場向けに音声 AI を構築または評価している企業にとって、これらの課題を理解することは必須ではありません。感動を与える製品デモと、実際に機能する運用環境の違いは異なります。

中国 ASR の 4 つの技術的障壁

障壁 1: トーンがすべてを変える

英語はストレスを感じやすい言語です。北京語は声調言語です。このたった 1 つの違いによって、音声認識の難しさが根本的に変わります。

中国語の音節「ma」は、「母」（第 1 音調）、「麻」（第 2 音調）、「馬」（第 3 音調）、または「叱る」（第 4 音調）を意味します。流暢なスピーチでは、声調の境界がぼやけます。話者は、早口で話すときに声調を柔らかくしたり、文脈に応じて変化させたり、完全に平坦にしたりします。主に英語でトレーニングされた ASR エンジンには、これを処理するネイティブメカニズムがありません。まったく異なる音響次元を学習する必要があります。

特に台湾では問題がさらに悪化する。台湾の北京語には、本土の普通話とは体系的に声調と音声が異なります。主に中国本土のコーパスでトレーニングされたモデルには、台湾話者を処理す��際に測定可能なバイアスが生じます。台湾モバイルの myVoca ASR モデルは、政府議事録の音声で約 97% の文字精度を達成していると報告されていますが、これはクリーンでフォーマルな音声です。騒がしいカスタマーサービスの通話では、精度が大幅に低下します。

障壁 2: コード交換が常態化している

台湾では、1 回のカスタマーサービスの通話に標準中国語と台湾福建語 (台語) の両方が含まれるのが日常的です。これはたまにあることではありません。高齢者にとっては、これがデフォルトのコミュニケーションモードです。電話をかけてきた人は、注文番号を中国語で伝え、次に福建語に切り替えて問題を説明し、その後中国語に戻って住所を伝えることがあります。

ほとんどの ASR アーキテクチャは、単一言語入力を前提としています。 1 つの発話内で 2 つの言語が交互に使用されると、信頼度スコアが崩壊します。このモデルは、ある言語の音響空間から別の言語の音響空間に音素を強制的に当てはめようとするため、出力が文字化けします。

公開されている福建語音声コーパスは依然として不足しています。フォルモサ音声認識チャレンジは、台湾語音声認識に関する学術的進歩を推進しましたが、コード交換された北京語と福建語の会話 (顧客サービスの実際のパターン) のラベル付きデータは、トレーニングセットには事実上存在しません。

障壁 3: 固有名詞は弱点です

顧客サービスにおいて最も重要な情報は、住所、個人名、製品識別子である傾向があります。これらはまさに、ASR が中国語で最も扱いにくいものです。

台湾の住所「三重區重新路三段」(三重區重新路三段) を考えてみましょう。「重」の文字は、異なる発音で 2 回表示されます (chóng と zhòng)。数字「三」は、さまざまな意味上の役割で繰り返されます。完全な住所形式 (地区、道路、セクション、車線、路地、番号、階) では、驚くべき密度の数字と固有名詞が短い発話に詰め込まれています。数字を 1 つ聞き間違えると、住所全体が無効になります。

個人名はもっとひどい。中国人の名前は何千もの可能な文字から構成されており、その多くは同音異義語です。 ASR エンジンは、見慣れない名前に遭遇すると、デフォルトで最も確率の高い同音異義語を使用しますが、これはほとんどの場合間違っています。会話フローにカスタム辞書または確認ループを組み込むことなく、この問題を解決する確実な方法はありません。

障壁 4: 電話の音声品質とトレーニングデータの比較

この問題はすべての言語にまたがりますが、意味を伝える声調の区別がまさに電話コーデックによって最も劣化する周波数であるため、中国語 ASR に特に大きな影響を及ぼします。

ほとんどの ASR モデルは、ポッドキャスト、YouTube、16kHz 以上のサンプリングレートでのスタジオ録音などの広帯域オーディオでトレーニングされています。実際の電話通話は 8kHz 狭帯域で送信され、音の情報を伝える周波数範囲が圧縮されます。背景ノイズ、エコー、信号ドロップアウト、および携帯電話のマイクの音響特性により、入力はさらに劣化します。

クリーンなオーディオで 95% の精度でベンチマークされたモデルは、実際の電話入力では簡単に 80% を下回る可能性があります。あらゆる単語の誤認識がトランザクションの失敗を意味する可能性がある顧客サービスアプリケーションの場合、そのギャップは容認できません。

中国語市場向けの音声 AI を評価する際に尋ねるべきこと

台湾やその他の北京語を話す市場に展開する音声 AI プラットフォームを評価している場合、5 つの質問によって本格的なソリューションと魅力的なデモが区別されます。

ASR にはどのようなトレーニングデータが使用されましたか? 台湾固有の微調整を行わない一般的な多言語モデル (Whisper、Google STT) が答えである場合、台湾語の音声パターンには測定可能な精度のギャップがあることが予想されます。

コード切り替えはどのように処理しますか? 「北京語と福建語をサポートします」は、「文中の言語切り替えを処理できます」と同じではありません。後者には、ほとんどのプラットフォームにはない特殊なモデルアーキテクチャとトレーニングデータが必要です。

電話品質の音声の精度はどのくらいですか? クリーンなテストセットではなく、実際の通話録音に対するベンチマークが必要です。ラボの精度と電話回線の精度の差は、通常 10 パーセントポイントを超えます。

カスタム辞書をサポートできますか? 製品名、住所、企業固有の用語 - これらは認識パイプラインに挿入できる必要があります。この機能がないと、システムは最も重要な情報に対して常に失敗します。

エンドツーエンドの遅延はどれくらいですか? 応答に 2 秒かかる場合、音声認識の精度は意味がありません。自然な会話のしきい値は、話し終えてから応答が始まるまで約 800 ミリ秒です。中国語で精度と速度の両方を達成するには、意図的なアーキテクチャ上のトレードオフが必要です。

ローカリゼーションは翻訳ではありません

核となる洞察はシンプルですが、見落とされがちです。中国語市場向けに音声 AI をローカライズすることは翻訳の問題ではありません。それはリエンジニアリングの問題です。

音響モデルのトレーニングデータ、言語モデルの事前分布、発音辞書、会話フローの設計、レイテンシの最適化といったスタックのすべての層を、ターゲット言語と方言に合わせて再構築する必要があります。北京語サポートを機能マトリックスのチェックボックスとして扱う企業は、運用環境で常にパフォーマンスを下回ります。

これが、これらの課題に根本から取り組むアジアネイティブの音声 AI 企業のエコシステムが成長しているのを私たちが見ている理由です。 Taiwan Mobile の myVoca から ASUS 子会社の AICS、そして特定の垂直ユースケース向けに構築する専門スタートアップに至るまで、共通しているのは、ローカル音声データとドメイン固有の最適化への多大な投資です。

Pathors では、アクセントを考慮した ASR チューニング、カスタム辞書のサポート、電話グレードのオーディオの遅延の最適化など、台湾標準語のコンテキストに合わせて音声 AI ��ラットフォームを初日から設計しました。なぜなら、台湾の顧客にサービスを提供するあらゆる企業にとって、発信者の発言を正確に理解する能力は、他のすべての基礎となるからです。

ブランドン・ルー

COO

AI テクノロジーを活用して顧客サービスとビジネス運営を変革することに情熱を注いでいます。

もっと記事を読む