研究一覧に戻る

公開日 2026年2月

著者 潘 秀曦 博士

ロングテール視覚認識のための合成学習データ:なぜ機能的正確性が視覚品質よりも重要なのか

ロングテール視覚認識のための合成学習データ:なぜ機能的正確性が視覚品質よりも重要なのか

産業向け合成データに求められる目的関数は生成 AI の主流が追う目的関数とは正反対である理由と、その反対側の目的関数で実際にモデルを構築して学んだことに関するリサーチノート。


Contextual Agentic Vision Platform 内部で スカウト として機能する専門 CV モデル(物体検出、セマンティックセグメンテーション、OCR、深度推定、トラッキング)は、学習に用いたデータの質を超えることはない。これらのスカウトにとって最も難しいシーンは、ありふれたシーンではない。難しいのはコーナーケースである。希少な物体クラス、通常と異なる空間配置、そもそも演出も収集も不可能なシナリオが該当する。デモで印象的なスカウトと、本番環境で持ちこたえるスカウトの差を埋めるのは、まさにこの差分を埋められるかどうかにかかっている。

データ問題に対する主流の応答は、収集の規模を拡大することだった。ラベル付き画像をさらに増やし、アノテーターを増員し、ストレージを拡張する。しかし安全性が問われる領域でのロングテール視覚認識では、この応答はすぐに限界に達する。世界はロングテールである。コーナーケースはオンデマンドで収集できない。従来の拡張手法(反転、クロップ、カラージッタ)は外乱変動に対する不変性を導入するが、新しい視覚的内容は何ら追加しない。最も重要なケースこそ、学習セットに追加することが最も難しいケースである。

本ノートでは、このギャップに正面から対処するために構築した合成データエンジンの設計、その目的関数を主流の生成 AI が最適化している方向と意図的に逆向きにした理由、そして自動車 OEM との管理された実証で計測された結果について述べる。


ミスマッチ:視覚的魅力 対 学習有用性

生成 AI 業界は、美しい画像を生み出すことで競争している。視覚品質、美的整合性、人間評価者にとってのプロンプト忠実度、これらが最先端の text-to-image 研究を駆動する目的関数であり、汎用生成器の大半が最適化対象としている指標である。

視覚的魅力に最適化されたモデルは、学習データの供給源として有用とは限らない。人間評価者が減点しない二つの性質は、合成データを学習素材として有害にする性質と完全に一致する。

位置のずれ(positional drift)。生成器は「日本の高速道路でフレーム外まではみ出すトラック」という美しい画像を生成できるが、その際にトラックの位置がプロンプトの指定とわずかに異なることがある。人間採点者には問題ない。しかし、その画像で学習する下流の検出器にとっては、プロンプトから派生したバウンディングボックスのアノテーションがレンダリングされた物体位置と一致しなくなり、モデルはアノテーションとピクセルの間に微妙に誤った対応関係を学習する。

ドメインのずれ(domain drift)。Web スケールの美的画像で学習した生成器は、「魚眼カメラで撮影した日本の高速道路」のように見える何かを生成するが、顧客固有のカメラ系統が持つ歪曲プロファイル、露光特性、ノイズフロアと実際には一致しない。合成画像は人間評価者には正しく見え、CNN の特徴抽出器には別のドメインに見える。混合データで学習したモデルは、最良の場合は合成データを無視し、最悪の場合は実データの分布を犠牲にして合成分布を学習する。

これら二つの性質はコンテンツ生成では許容できる。学習データとしては失格である。

異なる目的関数:機能的正確性

Synthetic Data Platform は、Yodo Labs 創業者の過去のコンピュータビジョン研究を基盤とする、自社開発の独自画像生成モデルの上に構築されている。既存の生成 AI サービスを包むラッパーではない。一つの目的関数のためにゼロから設計されている。それは 認識モデルをより良くする学習データを生成すること である。

その目的関数は、二つの計測可能な性質に分解できる。

位置忠実性

生成された物体は、アノテーションが指定した まさにその位置 に出現する。入力レイアウトは構成上そのまま出力アノテーションとなり、ラベル付与を別工程として行う必要はなく、プロンプトの空間的意図とレンダリングされたピクセルの間にずれは生じない。検出スカウトにとっては、この性質こそが合成データを使用可能にする前提である。セグメンテーションスカウトにとっては、物体境界に沿ってピクセル粒度でこの性質が保たれていなければならない。

これは汎用生成器が忘れている機能ではなく、汎用生成器が逆方向に最適化されている性質である。指定レイアウトを厳密に保持する生成器は、人間評価者から「制約されているように見える」として減点される。それは学習データエンジンとしては誤った損失関数である。

スタイル整合性

生成画像は 配備対象環境 の視覚的特性(顧客固有のカメラ系統、照明、大気条件、センサノイズプロファイル)と一致しており、しかも極めて少数の参照画像とアノテーションなしの条件下でその一致を達成する。

この性質こそが、合成と実データの間の ドメインギャップ を埋める。配備ドメインに 一致しない 合成画像と実画像の混合で学習したスカウトは、実際には実画像のみで学習したスカウトより性能が低下する。スタイル整合性は、合成データを学習信号を希釈する存在ではなく、学習信号を提供する存在として成立させるための条件である。

ギャップの形状に応じた四つのモード

ロングテール故障モードの種類によって、必要となる合成データの種類は異なる。Platform は四つのモードを備えており、単一の学習バッチ内で組み合わせて使用できる。

1. ロングテールの再均衡化

既存 シーン内の過剰に表現された物体クラスを、希少なクラスに置き換える。シーン構成は保持され、対象物体だけが変わる。結果として、新たなデータ収集を伴わずにクラス分布を直接的に再均衡化できる。

一般的な車両を含む元のシーン 同じシーンに希少クラス(バス)を配置
一般的な車両(上)を希少クラス(バス、下)に置き換えた例。対象物体が画像境界で見切れている場合でも置換は正しく機能する。これは素朴なコピーペースト拡張が破綻する代表的なケースである。

2. インスタンス密度の増加

既存シーン内のもっともらしい位置に、新たな物体インスタンスを追加する。生成画像 1 枚あたりのラベル付き物体数が元画像より多くなり、フレームあたりの学習信号がより密になる。

元のシーン インスタンスを追加したシーン
もっともらしい位置に新たな車両インスタンスを追加し、ラベル付き物体密度を高めた例。

3. 特定コーナーケースの狙い撃ち

スカウトに学習させたい正確なシナリオ(極端に近接するトラック、通常と異なる空間配置、稀な構成)を指定し、必要な数だけ多様な例を生成する。

実コーナーケース:フレーム外まではみ出すほど近接したトラック Platform が生成したコーナーケース
実画像(上)と生成画像(下)。顧客指定は次の通り。フレーム外まではみ出すほど近接したトラック、日本の高速道路、魚眼カメラで撮影。Platform は実配備環境に合致する多様な例をオンデマンドで生成する。

4. 未知物体の生成

学習データに一度も出現していない物体(路上落下物、通常と異なる障害物、動物)を、新カテゴリとして指定位置に正確なアノテーション付きで生成する。これによって、実世界での学習サンプルがゼロのクラスにまでスカウトの検出語彙を拡張できる。

障害物のない元のシーン 路上に生成された石の障害物
元のシーン(上)と、同じシーンの車両前方に石を生成した例(下)。石は元の学習データには存在しない新カテゴリであり、指定位置にバウンディングボックスのアノテーション付きで生成されている。

大手自動車 OEM との管理された実証研究

以上の研究は、計測可能な問いを生じさせる。すなわち、この種の合成データで検出スカウトを学習させると、運用者が重視するコーナーケースにおいて実際に性能が改善するのか。この問いに答えるため、大手自動車 OEM の R&D 部門と管理された実証研究を実施した。

当該 OEM の自動運転チームは、広角および魚眼レンズを含むマルチカメラセンサ群を運用している。同チームは本番データセットから 24,000 枚のアノテーション付き画像を学習セットとして、加えて別途用意した評価セットを提供した。データセットの分布は業界の典型例である。

  • 乗用車:数千インスタンス。
  • スクールバス、消防車、工事車両:それぞれ数件程度。
  • フレームを覆い尽くす近接車両(自動運転にとって最も危険なシナリオ)が著しく過少表現されている。
  • 至近距離でフレーム外まではみ出して部分的にしか映らないトラック:24,000 枚中 233 インスタンス

我々は Platform を当該 OEM のカメラ構成に適合させ、上記の四モードにわたって約 36,000 枚の合成画像を生成した。合成データは実データの学習セットに追加され、各混合データで検出スカウトをスクラッチから再学習し、性能は評価セット上で計測された。

研究設計

以下に報告する数値は、ある一社の OEM との単一案件から得られたものである。結果が何を示し、何を示さないかを読者が判断できるよう、設定を明文化しておく。

  • 検出器。YOLO 系列の標準的なシングルステージ検出アーキテクチャを使用。各データ混合に対してスクラッチ学習(ImageNet や COCO の事前学習なし)を行い、ハイパーパラメータ構成は当該センサ群に対して OEM が内部で用いる設定と同一とした。
  • 学習データ。OEM から提供された本番フレーム 24,000 枚。本報告の各実行において実学習データのラベルは一切改変しておらず、混合に追加された合成フレームは構成上付与されたアノテーション(位置忠実性)を備え、生成モードがタグ付けされている。
  • 評価データ。OEM から別途提供された評価セット。評価セットは生成器に一切提示されておらず、合成サンプルの選別にも用いていない。研究期間中、評価セットの画像を確認することもなかった。
  • 指標。評価セット上の mAP@0.50:0.95。
  • ベースライン。実データのみの三つのベースライン。24,000 枚、30,000 枚、60,000 枚(OEM が供給可能な最大量)の実フレーム。30K 実データのベースラインは「同量の合成データとの比較」という所見における比較対象である。
  • 繰り返し。本報告の各データ混合は単一の乱数シードでのみ学習を行った。複数シードによる分散推定は実施しておらず、したがって個別の mAP 値に信頼区間は付さない。負荷の中心となる所見は方向性の改善(合成データ量の増加に伴う単調増加)であり、絶対値は単一案件における点推定として読まれるべきである。
  • 外的妥当性。一社の OEM、一つのカメラ構成(広角と魚眼)、一つの検出器系列に限られた検証である。転用可能と考えているのは Platform の設計目的(位置忠実性 + スタイル整合性)であり、具体的な改善幅そのものではない。

本研究が確立しないこと。合成データが任意の比率で実データの代替になること、曲線が無限に右肩上がりに伸び続けること、合成サンプル 1 件あたりの価値があらゆる難易度において実サンプル 1 件と等価であること、これらは確立されていない。確立されたのは、当該 OEM において、検証した合成データ量の範囲内で生成した合成データが 正の信号に寄与した こと、ならびに実データで体系的に過少表現されていた特定のコーナーケースにおいて、的を絞った合成サンプルが性能を改善したことである。

mAP の改善は合成データ量に応じて拡大する

mAP の改善:実 24K(0.28)から実 24K + 合成 36K(0.38)まで。同量比較で合成が実を上回る
合成データ量の増加に伴う検出精度(mAP@0.50:0.95)の変化。検証した最大量においても曲線は飽和していない。

mAP は 0.279 から 0.378 まで改善した。合成画像を約 36,000 枚追加することで mAP は絶対値で +0.099(相対値で +35.5%)改善した。検証した最大量においても曲線は飽和していないが、合成と実の比率がさらに上昇するにつれて限界利得は減衰すると考えられる。

同量比較で合成が実を上回った

管理された比較において、実 24,000 枚 + 合成 6,000 枚実 30,000 枚 よりも高い mAP を達成した。これは合成データが普遍的に実データより優れているという主張ではない。この量、このドメイン において、追加戦略で生成された合成画像はフレームあたりのアノテーション付きインスタンス数が多く、画像あたりの密な教師信号の価値が、限界における追加実画像の価値を上回ったという主張である。

この所見は、位置忠実性とスタイル整合性の両方が成立して初めて得られるものである。位置忠実性がなければ合成アノテーションが誤りとなり、スタイル整合性がなければ合成画像が独自ドメインを形成して検出器がそれを無視するようになる。

最重要のコーナーケースを 233 件の合成サンプルが改善した

最も鋭い結果は、単一の最難関コーナーケース(フレーム外まではみ出して部分的にしか映らないほど近接したトラック)で得られた。学習セットには 233 件、評価セットには 503 件存在した。コーナーケースに合致する 狙い撃ちの合成サンプルを 233 件生成し、学習セットに追加した。このシナリオにおける検出性能は改善した。

拡張前は検出に失敗 拡張後は検出に成功
フレーム外まではみ出すトラックの検出。このコーナーケースに狙いを定めた合成サンプル 233 件で学習を拡張する前(上)と後(下)。

注目すべきは 件数の同等性 である。実 233 件、合成 233 件、合成データはクローズドセット検出器がそれまで失敗していたシナリオに対する実効的な教師量を倍増させた。件数を増やしても合成と実の同等性が維持されるかどうかは、現在も研究中の未解決問題である。


Platform 上での位置づけ

Synthetic Data Platform は、Contextual Agentic Vision Platform のスカウト層よりも 上流 に位置する。その出力は学習データ(特定のスカウトを特定の故障モードに対して改善するアノテーション付き画像)であり、判定や推論ではない。適切な合成データで学習されたスカウトは、その上の VLM アナリストにとってより信頼できる入力となり、VLM アナリストはその上で、エビデンスチップが構造的に健全なスカウト出力まで遡れる判定を生成する。

ここにはフィードバックループが存在する。ジャッジ層が判定レベルの繰り返しパターンを記録するために用いる 故障モードアトラス は、Synthetic Data Platform に対して次に生成すべきコーナーケースを伝える情報源でもある。両システムは独立した製品ではない。同一ループの両端である。ジャッジ層で観測された故障がデータ層では狙い撃ちの生成プロンプトとなり、それが知覚層では改善されたスカウト挙動となる。

未解決の課題

このエンジンは解決済みのシステムではない。

  • 限界利得の減衰。OEM 研究における mAP 曲線は合成対実の比率 60% でも飽和していなかったが、より高い比率では追加の合成データの限界寄与が明らかに減衰する。所与のドメインにおいて漸近線がどこにあるかについて、我々はまだ良いモデルを持たない。
  • 合成と実の同等性は単一データ点に過ぎない。233 + 233 が特定のコーナーケースを埋めたことは励みになる。しかし、より難しく、より構成的なコーナーケースにおいて、合成 1,000 件が実 1,000 件を代替できるかどうかが次の問いであり、決定的な答えはまだない。
  • 顧客間のドメイン転用。顧客 A の魚眼系統に合わせて調整したスタイル整合性の適応は、顧客 B の広角ピンホールにそのまま転用できない。我々は顧客ごとに対処するエンジニアリングプロセスを備えているが、学習時に解決する答えはまだ持っていない。

いずれも我々が現在取り組んでいる研究課題であり、提示可能な成果が得られ次第、個別に報告していく。

現在の適用領域

このパターンは二つのドメインに適用している。

  • 自動運転:コーナーケース網羅、ロングテール再均衡化、未知障害物の生成、マルチカメラ適応。
  • 製造品質検査:希少欠陥の拡張、欠陥データがまだ存在しない新製品ラインのコールドスタート学習。

根底にある問題(最重要シナリオの例数が不足する)は、視覚認識が安全性の問われる条件下で動作するあらゆる領域に普遍的なものである。合成エンジンを単発のサービスではなく標準学習パイプラインに組み込んでいるのは、まさにこの理由による。