AI頂上決戦： Behavox AIがChatGPTをコンプライアンス領域で凌駕する。

ChatGPTの急速な普及には驚きを禁じ得ません。つい最近、たまたま乗車したUberのドライバーからも熱心にChatGPTの利用を勧められ、その素晴らしい成果に深く感銘を受けました。世界的に有名な科学者やビジネスリーダーが、一時的に強力なAIモデルの開発を減速するよう呼びかけているにもかかわらず、ますます強力なAIシステムが今後も登場することは間違いありません。

このことから、銀行セクターにおいてChatGPTをどのように活用できるか、そしてコンプライアンス領域においてChatGPTをどのように活用できるかという疑問が生じます。メディアにおいては、ChatGPTを禁止する銀行がある一方で、全社的な規模でChatGPTを採用する銀行もあることが紹介されています。多くのコンプライアンス専門家は、AIがもたらす魅力的な可能性により、生産性を高め、誤検知を最小限に抑えるためにAIの可能性を利用することを熱望しています。

AIを使用してコンプライアンスアラートを生成したり、アラートを選別したりすることは、多面的な課題です。アーカイブソフトをOpenAI APIにリンクさせるだけの簡単なことではありません。それはデータガバナンスやデータポリシーに違反する可能性がある行為であり、イタリアではChatGPTを全面的に禁止しているほどでです。

モニタリングは検出制御として機能し、ポリシーの文脈を理解し、可能な限り多くのポリシー違反を検出し（再現率で測定）、最小数の偽陽性を生成する（適合率で測定）ことが必要です。さらに、検出制御は監査可能でなければならず、コンプライアンスチームはこれらの制御の設定と機能を説明できる必要があります。

堅牢であり、規制環境での使用が認められるためには、コンプライアンスチームが実装するAIモデルまたはレキシコンシナリオは、モデルリスク管理の3つの柱を遵守する必要があります。Behavoxは、FRBがSR11-7ペーパーで先駆けたフレームワークを使用し、すべてのクライアントにそのように助言しています。このフレームワークは、モデルリスク検証におけるゴールドスタンダードと考えられています。その3つの柱は以下の通りです：

概念的な健全性 – モデルの機能を理解し、その基本的な構造を説明できること。

成果分析-モデルの結果が我々の期待に合致していることを確認すること。

継続的なモニタリングと変更管理 – 定期的にモデルを評価し、変更があれば本番環境に導入する前に厳密な評価プロセスをかけること。

多くの金融コンプライアンス担当者は、モデルリスク検証に関するFRBのSR11-7論文は、自分たちは銀行ではないので自分達には適用されないと誤解しています。しかし、これはこの文書の目的を誤解しています。SR11-7は、銀行専用というよりも、2008年のサブプライム危機から学んだ教訓に基づくソート・リーダーシップと見るべきでしょう。この文書は、AIモデルの適切な検証や動作の理解なしに盲目的に依存することへの警告として機能しています。

住宅ローンリスクの引き受けモデルであれ、AIであれ、コンプライアンスアラートを生成するためのレキシコンシナリオであれ、すべてのモデルは、2011年にFRBが導入した原則を用いて評価されなければならないのです。このことから、コンプライアンスにおけるAIの導入は、SR11-7の原則を適用して、AIモデルを使用する前に検証し、理解することが必要な重要な分野であることがわかります。

しかし、ChatGPTをコンプライアンス目的で使用することは、モデルリスク検証の3つの柱すべてにおいて不適格です。ChatGPTは、データセットが透明でなく、監査もできないため、説明可能性と概念の堅牢性に欠けています。モデルがどのように、そしてなぜその決定を下したのかが不明であり、たとえその答えを説明できたとしても、その根底にある数学を評価することは不可能です。さらに、ChatGPTのトレーニングデータセットは閉鎖的であり、監査できないため、コンプライアンス用途への適性がさらに損なわれています。

ChatGPTは、結果分析を行う際に、その判断が常に一貫しているとは限りません。つまり、ある事例では特定のフレーズに対してアラートを生成し、別の事例では同じフレーズに対してアラートを生成しないことがあります。「応答を再生する」ボタンをクリックしても、まったく同じ応答が返ってくるわけではなく、バリエーションがあるのです。さらに、フレーズのわずかな変更によって、コンプライアンスチームが明らかな真正性を見落としてしまう可能性もあります。ChatGPTの一貫性に関するオックスフォード大学の研究によると、「このような間違いは、メールの下書きなどの日常的な作業では取るに足らないものに思えるかもしれませんが、法律、医療、金融などの保守的でリスクに敏感な領域では重大な懸念を引き起こします」。

Behavoxは、ChatGPTの性能を評価するために、自社で作成されたコンテンツを使ったベンチマークテストを実施しました。ChatGPTは意図的に仕込まれたフレーズの18%しか検出できず、その結果、再現率は18%にとどまりました。これは、レキシコンシナリオ（Behavox Advanced Scenarios）が達成した22%の再現率と比較すると、残念なほど低い数値です。ChatGPTのパフォーマンスは、ドメインとタスクに特化したAIであるBehavox Quantum AIが仕掛けたフレーズの84％を捕捉したのに比べ、はるかに劣っています。最も重要なことは、ChatGPTの結果は常に一貫しておらず、ユーザーが再生成結果を要求したときに予測不可能に変化する傾向があったことです。

未承認チャネルリスクポリシー	チャットGPT	Behavox Advanced Scenario（レキシコン）	Behavox Quantum,AI (LLM)
リスクを捉えた率（再現率）	18%	22%	84%

規制当局の監視対象をなっているクライアントとの取引が多い当社の経験から、規制当局と監視官が再現率と成果分析にますます重点を置くようになっていることがわかりました。このような場合、監視官の主な関心事は、植え込みコンテンツの検出におけるコンプライアンス・ソリューションの有効性であり、高い再現率の重要性が強調されます。

最後に、金融機関はChatGPTの変更管理をコントロールすることができず、モデルのパフォーマンスの継続的な監視を行うことができません。ChatGPTモデルは、OpenAIの独自のスケジュールに従って微調整され、更新されます。そのため、アップグレードのタイミングをコントロールすることができず、これらのアップデートがコンプライアンスプログラムの有効性にどのような影響を与えるかを評価することは困難です。

残念ながら、AIを採用する際に近道はありません。金融サービスの顧客にAIを活用したソリューションを提供しようとする企業はすべて、重い腰を上げ、徹底的な調査を行う必要があります。

AIをコンプライアンス領域に適用するマーケットリーダーとして、Behavoxは2022年にお客様にAIを提供するために、数々の困難を乗り越えなければなりませんでした。本番環境でAIを導入し、規制当局の検査、内部監査、モデルリスクの検証に合格したことで、金融サービスにおけるAI受け入れの品質基準が特別に高く設定されていることが明らかになりました。Behavoxは先駆者として、この品質基準を満たすだけでなく、より高く押し上げようとしています。

以下は、コンプライアンスにおけるAI導入の成功に不可欠な項目のチェックリストです：

文書化：規制の概要を説明し、検出制御をそれらに対応させるため、非常に重要な項目です。このステップにより、顧客はAIを自社のニーズに合わせることができます。最も重要なのは、検出コントロール（監視）を特定の規制に明確にマッピングすることであり、これを私たちはリスクタクソノミーと呼んでいます。
トレーニングデータセット：これは説明責任を高めるために不可欠です。データセットはドメインに特化し、高品質で、信頼性を確保するために複数のコンプライアンス専門家がレビューして作成する必要があります。
トレーニング用データセットの監査：これらは、顧客、規制当局、監査人が利用できるようにする必要があります。Behavoxが所有するデータセットは、適切なセキュリティ対策が施された上で、閲覧やレビューが可能です。全てのデータセットは、世界の主要都市にあるBehavoxが設置した安全なデータルームにおいてのみアクセスすることが可能です。
成果分析およびモデルのリスク検証：これらは、すべてのモデルについて実行する必要があります。すべてのBehavox AIモデルには、お客様によってレビューされ承認されたテストデータセットで計算された再現率と適合率が付属しています。
フィードバックループとモデルの再トレーニング： Behavoxは、お客様から提案されたモデルの改良を取り入れるためのフィードバックループを運用し、再現率と適合率を継続的に向上させています。
変更管理プロセスおよびモデルのアップグレードプロセス： Behavoxは、モデルリスクフレームワークに準拠した高品質のモデルを提供するために、これらの側面を処理する必要があります。

上記のすべてに対応することで、Behavoxは金融サービス業界の厳しい要件を満たす一流のAIソリューションの提供を担保します。

結論として、ChatGPTはまだAGIではないので、コンプライアンス領域向けにいきなり使用することはできません。タスクに適応したドメイン特化型モデルは、著しく高いパフォーマンスを発揮できるため、コンプライアンス領域に適したアプローチと言えます。

ChatGPTがAGIを達成したとしても、コンプライアンスチームは、それを受け入れるか否かを判断するために、堅牢なテストと評価の枠組みを必要とします。コンプライアンス領域におけるモデルのパフォーマンスを客観的に評価するために、Behavoxはベンチマークデータセットを金融サービス企業に無償で提供します。これらのデータセットは、200人以上のコンプライアンス専門家によって綿密に作成されたもので、真陽性だけでなく、最も一般的な偽陽性をも含んでいます。これらのリソースを利用することで、業界は現在のレキシコンベースのコントロールを評価するだけでなく、このブログ記事で示されているように、あらゆるベンダーの代替案を客観的に比較し、モデル性能を評価することができます。

Behavoxでは、2023年晩春または初夏に東京で、コンプライアンス領域における次世代AIに関するイベントを開催準備中です。コンプライアンス領域向けのAIを実際に体験するには、当社が開催するイベントにご参加ください。私たちのAIがどのようにChatGPTを凌駕したか、そして効果的なAIコンプライアンスソリューションについてより深く学ぶことができます。当イベントの詳細が決定次第、皆様にご連絡させていただきます。

Related Readings

Avoiding the Hidden Price of Non-Compliance: Monitorships

Benchmarking Behavox Voice Against Leading Transcription Services.

Unleashing Innovation: How Google Cloud and Behavox transform financial compliance…