ケーススタディ一覧に戻る

公開日 2025年7月1日

著者 潘 秀曦 博士

オンプレミスLLMデプロイメント用NVIDIA H100 GPUサーバー

グローバル金融サービスグループ向けセキュアなオンプレミスLLMの設計・構築

エグゼクティブサマリー

グローバル金融サービスグループが、大規模言語モデル(LLM)を活用して複雑な金融ワークフローの自動化と独自データの分析を行う必要がありました。しかし、厳格なデータ主権法と社内リスクフレームワークにより、商用クラウドAI APIの使用は厳しく禁止されていました。Yodo Labsは、先進的なオープンウェイトモデル、精密なデータサニタイズ、高性能推論スタックを組み合わせた、100%オンプレミスのカスタムLLMエコシステムを設計・構築しました。これにより、絶対的なデータセキュリティとゼロベンダーロックインを保証しながら、最先端のAI能力をクライアントに提供しました。

課題:コンプライアンスによるイノベーションの停滞

クライアントのアナリストは、膨大なSEC提出書類、社内ピッチデッキ、独自のトレーディングアルゴリズムからインテリジェンスを手動で抽出するために数千時間を費やしていました。競争優位を維持するために、専門的な金融推論が可能なAIエンジンが必要でした。

しかし、アーキテクチャ上の行き詰まりに直面していました:

絶対的なデータプライバシー要件: GDPRなどの規制と社内セキュリティポリシーにより、独自の金融データや個人識別情報(PII)をサードパーティのクラウドプロバイダー(OpenAI、Googleなど)に送信することが完全に禁止されていました。パブリックAIツールを通じた機密コードやデータの漏洩に関する業界の重大インシデントにより、外部APIは許容できないリスクとなっていました。

金融専門用語とハルシネーション: 汎用モデルは金融リテラシーが不足しており、「ハルシネーション」, もっともらしいが事実に反する指標を生成する傾向がありました。グローバル金融において、単一のハルシネーションされたデータポイントが壊滅的なトレーディングエラーを引き起こす可能性がありました。

スループットのボトルネック: 大規模モデルのローカルホスティングは通常深刻なレイテンシを招き、法外なハードウェアコストなしではリアルタイムのアナリストクエリが不可能でした。

Yodo Labsのソリューション:カスタムメイドのエアギャップAIエコシステム

Yodo Labsは、セキュアなエンドツーエンドのオンプレミスAIアーキテクチャを設計することで、クライアントを技術的な行き詰まりからエンタープライズスケールのデプロイメントへと導きました。研究チームとデリバリーチームが多層的な戦略を実行しました:

1. セキュアなデータサニタイズとガバナンス

モデルトレーニングに先立ち、自動データサニタイズパイプラインを構築しました。このシステムは高度な固有表現認識を活用し、トレーニングコーパスからPII、クライアントID、機密取引値を細心の注意を払ってマスキングしました。これにより、モデルが機密情報を記憶することなく、企業の金融データのロジックを学習できるようにしました。

2. 戦略的なモデル選定とパラメータ効率的なファインチューニング(PEFT)

クローズドソースのAPIに依存するのではなく、クライアントのファイアウォール内にローカルでデプロイされた強力なオープンウェイト基盤モデル(Qwenなど)を選定しました。深い金融専門性を習得させるため、MLエンジニアがLow-Rank Adaptation(LoRA)というパラメータ効率的なファインチューニング技術を活用しました。これにより、コア推論能力の劣化を完全に回避しながら、フルパラメータ再トレーニングのコストの数分の一で、独自の金融専門用語を習得させることができました。

3. 高性能推論エンジニアリング

ローカルサーバー上でクラウドレベルの速度を実現するため、Yodo LabsはTriton Inference ServerとvLLMバックエンドを組み合わせた最適化された推論サービングスタックを設計しました。PagedAttentionを活用してメモリフラグメンテーションを排除し、最先端のNVIDIA H100 GPU上にデプロイすることで、数千の同時クエリに対するサブ秒のレイテンシを実現しました。

4. ローカルRAGによる検証可能な精度

ハルシネーションを完全に排除するため、ローカルRetrieval-Augmented Generation(RAG)アーキテクチャを統合しました。アナリストが質問すると、システムはセキュアなベクトルデータベースから最新の社内文書を検索し、LLMに正確な出典の引用を強制します。これにより、生成されたすべてのインサイトが100%トレース可能で、実証的な事実に基づくことが保証されます。

インパクト:戦略的自律性とスケーラブルなROI

AIをパブリッククラウドから切り離すことで、Yodo Labsは金融セクターの妥協のない要求を満たす変革的なソリューションを提供しました。

  • 妥協のないセキュリティ: 企業ファイアウォール内での100%ローカルデータ処理。サードパーティAPIへの露出ゼロにより、グローバルデータ保護フレームワークへのコンプライアンスを保証。
  • 飛躍的な効率向上: アナリストが手動のデータ収集から高付加価値の戦略的統合にシフトし、決算報告の処理や複雑なコンプライアンスレポートの生成に要する時間を大幅に短縮。
  • 戦略的自律性(ゼロロックイン): クライアントは運用コストを独自の知的資産に変革することに成功。自社の方法論に合わせたカスタムメイドの金融推論エンジンを所有し、ベンダーの恣意的な値上げや予期しないAPI廃止から解放。
  • 将来を見据えたインフラ: Yodo Labsが構築した高度にモジュール化されたアーキテクチャにより、自律型金融AIエージェントの将来的な統合への道を開き、クライアントが金融テクノロジーの最前線に位置し続けることを保証。

参考文献

  1. Private Large Language Models (LLMs): Security and Control Over your Generative AI Workloads. Analytics8
  2. The Comprehensive Guide to Fine-tuning LLMs. Data Science Collective
  3. AI Privacy Risks & Mitigations in LLMs. European Data Protection Board