音声のモニタリング - するべきか、それともしないべきか？

当社は、電話が人間の行動を理解するための最も重要なコミュニケーションチャネルの1つであるという考えのもとに設立されました。実際、当社の名前である「Behavox」は、ラテン語で「行動」と「声」を結合しています。

現在、多くのお客様が当社のソフトウェアを使用して、組織内の電話会話を監視するだけでなく、その他150以上のコミュニケーションチャネル（例：メール、Bloomberg Chat、WhatsApp、Slackなど）も監視しています。

金融機関における電話会話の監視は、効果的なリスク管理と規制順守に貢献する重要な役割を果たします。

電話会話は、メールやインスタントメッセージングなどの他のコミュニケーションチャネルよりも、不正行為や潜在的な詐欺行為を10倍も含んでいます。

特定の管轄区域や金融規制（例：欧州連合のMiFID II）では、取引、投資、または助言活動に関連する電話会話の記録と監視を金融機関に義務付けています。

電話会話の監視と記録は、金融取引に関連する通信の包括的な監査証跡を作成します。この監査証跡は、内部または外部の監査、規制当局による調査、または法的手続きの際に重要となります。
記録された電話会話は、紛争の解決、誤解の解消、顧客または取引先からの苦情の証拠提供に活用される場合があります。

過去2年間、多くの企業が全国先物協会（NFA）の検査や金融行動監視機構（FCA）による調査で、電話会話の監視が不足しているとして厳しい問い合わせを受けています。何社かの企業が監督機関に対して、音声の監視がコストがかかる、効果的な監視に必要な技術が利用できないという主張を行ったことが驚きです。10年前ならその理由が通じたかもしれませんが、AIの時代では、このような理由で監督機関から特例を得ることはもはや不可能です。

音声の監視を実施することで、セキュリティ、予算、コンプライアンスチームの効率を損なう必要はありません。ただし、自動音声認識（ASR）の転記エンジンを活性化してレキシコンやランダムサンプリングに基づいてアラートを生成するだけではありません。音声の監視プログラムの効果は、多くの重要な詳細とニュアンスにかかっています。このブログでは、効率的かつ成功した音声の監視コンプライアンスプログラムを実施するために必要な基本的なステップについて掘り下げていきます。

空の通話、短い通話、通話セグメント

取引所の電話会話は、空の通話、短い通話、長い通話の3つの主要なカテゴリに分類されます。

空の通話とはは、バックグランウドのノイズは存在するが直接の人間の会話がないものを指します。驚くべきことに、これらの通話はすべての録音された通話の約20％を占めています。これらの統計が提示されると、弊社の顧客はよく驚かれることがあります。これは、金融サービス業者が取引所で使用する録音装置が、非常通報用に同様の装置を提供している会社から供給されることに起因しています。これらの録音装置は、通話者が切断することなく沈黙する期間でもすべてのオーディオをキャプチャするように設計されています。

短い通話は取引所での通話の大部分を占め、録音された通話の約66％を構成しています。これらの通話は短く簡潔であり、通常10秒未満の長さです。ただし、録音の圧縮性と音声品質の劣化は、人間のリスナーやAIシステムがこれらの通話の内容を理解する際に重要な課題を提供します。

長い通話は録音された通話のわずか13〜15％を占め、1時間を超える通話はわずか0.1％です。転記の精度を向上させるために、これらの録音された通話は通常10〜30秒の小さなセグメントに分割されます。例えば、5分の通話は30のセグメントに分割され、それぞれが10秒間続きます。機械学習アルゴリズムを使用して、各セグメントを分析し、話されている言語を特定し、適切な転記モデルを割り当てることができます。このセグメンテーションプロセスは、転記の品質向上に重要であり、過度に短いまたは長いセグメントは転記の正確性に影響を与える可能性があります。

企業には、録音された通話がこれらの3つのカテゴリの中でどのように分布しているか、および各カテゴリのデータ処理がどのように行われているかを包括的に理解することが重要です。例えば、空の通話を転記することは、システムがバックグラウンドノイズを転記しようとするため、より不正確な転記につながる可能性があります。そのため、これらの通話を転記処理から完全に除外することが望ましいです。ただし、コンプライアンスチームは、空の通話が本当に人間の会話がなく、背景ノイズだけで構成されていることを確認する保証プロセスを実施する必要があります。この検証は、空の通話をランダムにサンプリングして確認することで行われます。

10秒以下の短い通話は、正確にその言語に転記することが非常に難しいです。この難しさは、言語識別モデルが十分なオーディオの長さがないため、話されている言語を正確に判別することができないことから生じます。オーディオセグメントが短くなるほど、言語の混乱の可能性が高まり、間違った転記モデルが適用されることになります。例えば、英語のオーディオがスウェーデン語のASRモデルを使用して誤って転記されると、「North Korea」を「サルサクッキー」と認識してしまうような滑稽なミスマッチが生じることがあります。

短い通話の場合、1つのASRモデルを選び、すべての短い通話を1つの言語で転記することをお勧めします。従業員の地理的位置やカバレッジエリアを示すHRファイルが、適切な言語の選択を支援するのに役立ちます。10秒以下の通話を1つの言語で転記すると、転記が不正確になるように思われるかもしれませんが、話されている言語に関するモデルの推測だけに頼るよりも、より実用的かつ正確なアプローチです。この方法を取り入れることで、短い通話の転記がより信頼性が高く、一貫性があるものとなります。

言語とアクセント

言語の多様性と様々なアクセントは、ASR技術を通じた音声の転記において重要な課題を提供します。転記のプロセスは、2つの主要なステップから成り立っています。まず最初に言語識別（LID）が行われ、その後に識別された言語に基づいてASRが適用されます。LIDは、機械学習モデルを用いて音声の異なるセグメントに言語を割り当てるものです。すべての通話は10秒から30秒程度のセグメントに分割されることをお忘れなく。通話をセグメントに分割することで、複数の言語が使用される通話（話者が会話中に別の言語に切り替える通話）を転記するのに役立ちます。

アクセントは、言語の識別の精度と転記の全体的な品質において重要な役割を果たします。例えば、英語が強いスペインのアクセントで話されている通話は、スペイン語と誤って識別され、スペイン語のASRモデルを使用して間違った転記が行われる可能性があります。

LIDモデルは完璧ではなく、識別する言語の数が増えるにつれて精度が低下します。少ない言語に焦点を当てることで、精度が大幅に向上します。これはHRデータを分析するか、LIDによって識別された通話のサンプルを分析することで行われます。

音声モニタリングを導入するコンプライアンスチームは、LIDモデルに焦点を当てた検証プロセスを持つことが推奨されます。ASRを使用した転記はLIDモデルに依存する後続のプロセスであり、LIDモデルが正常に機能しない場合、転記の品質に大きな影響を及ぼし、転記が完全に誤っている可能性があります。ベンダーはLIDモデルの精度とアクセントに対する感度を開示しなければなりません。もしベンダーがLIDモデルを使用していない場合、言語に対するアプローチはどのようなものなのでしょうか？コンプライアンスチームがLIDモデルの期待されるパフォーマンスを理解すると、検証プロセスは比較的簡単です。LIDモデルによって識別された各言語に対して、通話のサンプルが選択され、手動で確認されます。通話の言語がLIDによって識別された言語と一致するかどうかを確認することができます。このチェックは、リソースの可用性に応じて一度行われることも、定期的に行われることもあります。

Word Error Rate（WER）

Word Error Rate（WER）は、音声転記の品質に関する議論でしばしば主要な焦点となります。会議では、一般的に転記エンジンの品質について尋ねられることがよくあります。しかし、このブログで強調されているように、WERは氷山の一角に過ぎません。それは下流のタスクであり、言語識別モデルと通話の分布（空の通話、短い通話、長い通話）に依存しています。

コンプライアンス担当者の方々が通話の分布と言語識別モデルの影響について包括的な理解を持っていると仮定し、今度は転記の品質を評価することに焦点を当てることができます。

自動音声認識（ASR）の品質は、通常、2つの指標で評価されます：文字誤り率（CER）とWord Error Rate（WER）。コンプライアンスの目的では、WERがしばしばより優れた指標とされます。なぜなら、WERは誤って転記された単語の数を定量化するからです。特に大規模言語モデルの文脈では（単語単位では言語理解を完全に表現できないため）、WER単体だけでは限界があるという研究が進行中であり、その不完全性が指摘されていますが、依然として業界標準として広く認識されています。

ただし、音声転記ソフトウェアのベンダーが開示するWERは、通常、顧客が実際に経験するであろう品質を表しているわけではありません。コンプライアンス担当者の方々は、自社のデータのサンプルでベンチマーキングを実施するよう要求すべきです。この独立した評価は、規制当局に提供できます。例えば、Behavoxは顧客データを測定したASRの品質に関する規制ベンチマーキングレポートを提供しています。

Behavoxの経験では、顧客のWERは通常、26％から35％の範囲にあります。この広い範囲は、録音機器の品質や特定の専門用語の使用による変動によるものです。

Amazonは同じデータに対して最高クラスのWERが24％を提供していることを指摘しておきます。ただし、Amazonのサービスを利用することは顧客には実現不可能です。何故なら個人を特定できる情報（PII）や機密情報が含まれるデータをAmazonと共有することは理想的ではないからです。一方、Behavoxは専用のインフラで運営されており、顧客データを安全なクラウド環境で処理しており、データが境界を越えて漏洩したり、研究開発目的に使用されることはありません。

コンプライアンス担当者の方々はBehavoxのベンチマーキングレポートに頼ることができます。これは顧客データを基にしたASRの品質に関する正確な評価を提供します。この独立した評価から得られる洞察を活用することで、コンプライアンスチームは転記ソリューションのパフォーマンスと信頼性をよりよく評価できます。

AIによるアラート生成

金融サービス業界のコンプライアンスチームにおいては、音声監視に対して一般的にランダムサンプリングが使用されることがよくあります。しかし、このアプローチはしばしば時間がかかり、不正行為や潜在的な詐欺の特定において限られた結果しかもたらすことができません。これを解決するためには、特定のリスクを対象とする探知制御を構成することが推奨されますが、その際にAIを使用することが特に効果的です。レキシコンも利用できますが、それらは誤検知を引き起こす傾向があります。一方、AIはリスクの特定においてより強力であり、アラートの量を減らすことができます。これは、個々の単語に焦点を当てるのではなく、文全体を評価することによって達成されます。そのため、転記が100％正確でない場合や、発話の中断（例：「えー」「あの」「あの、」など）が含まれている場合でも、効果的に機能します。

結論

音声監視の不在は、規制当局の監視対象となる可能性が高いです。ただし、音声監視の実施は手間のかかるプロセスになる必要はありません。適切なプロバイダーと提携することで、この取り組みを管理しやすく効率的にすることができます。言語識別（LID）、自動音声認識（ASR）、およびAIの機能を有効にすることで、探知制御を大幅に強化できます。多くの企業で一般的に使用されている手法、ランダムサンプリングの必要性を排除することによって、作業量を削減できることもとても重要な点です。

もし音声の機能について詳細を知りたい場合は、御社の特定の状況に合わせたアドバイスを提供することも可能ですし、弊社の経験と専門知識を共有させていただくことができます。

Radar Magazine

Radar 13 Out Now

A New Era For Compliance

SUBSCRIBE TODAY

Related Readings

Avoiding the Hidden Price of Non-Compliance: Monitorships

Benchmarking Behavox Voice Against Leading Transcription Services.

Unleashing Innovation: How Google Cloud and Behavox transform financial compliance…