アナリスト層におけるコーナーケース検出：ロングテール検査に対する VLM 中心のアプローチ

Contextual Agentic Vision Platform のアナリスト層が、クローズドセットのスカウトでは扱えないコーナーケースをどう処理しているかについての研究ノート。インフラ点検チームとの実デプロイメントから得られた知見をまとめている。

インフラ点検において最も難しい現場は、頻出するシーンではない。むしろまれで曖昧なケースである。電柱に開いたキツツキの穴、風車ブレード上のヘアラインクラック、当該資産クラスでは誰も見たことのない橋梁金具の腐食パターン。これらのコーナーケースはあまりに頻度が低く、クローズドクラスの学習セットを満たすには足りない。しかし、これらを見落とすことこそ、点検プログラムの存在意義そのものを問う故障モードである。

Platform 内部で、この問題は アナリスト層 に属する。知覚層のクローズドクラスのスカウトは不確実性をフラグできても、学習セットに一度も登場していない対象に対して「ここに何か異常がある」と単独で認識することはできない。その認識はオープンワールド推論であり、スカウト群の上、つまりスカウトの出力をクライアントのコンテキストパックと併せて消費し、構造化された所見を生成する層に属する。仕事の形状は、固定クラスの検出器をいくらチューニングしても届かない種類のものであり、したがってアーキテクチャの形状も異なっていなければならない。

本ノートは、我々が落ち着いた設計を記述するものである。アナリスト層に置かれた VLM ベースのアナリスト、vLLM を経由した提供、デプロイメント成熟度に対応した三段階の適応、そして高速な一次パスのスカウトが明らかな正常ケースをフィルタリングしてからアナリストが動くハイブリッドパイプライン。本当に難しい点と、未解決の課題が残る場所も併せて記録する。

なぜクローズドセットのスカウトではコーナーケースを解けないのか

根本的な不整合は、教師あり検出器がクローズドワールド前提を置くのに対し、実インフラの故障がオープンワールド性を持つ点にある。

欠陥分布は本質的にロングテールである。表面クラックや軽微な腐食といった少数の頻出タイプがデータセットの大半を占め、致命的でまれな異常はテール部にきわめて少数しか現れない。点検済みの風車のうち、最重要かつ最も検出困難な欠陥タイプであるヘアラインクラックを示したのは、35,000 基のうちわずか約 8.5% であった [1]。実世界の大量検査における異常率は通常、全サンプルの 1% 未満に収まる [2]。人手検査の誤り率は 10〜20% に達し、特定欠陥タイプの見落とし確率は 25% に上ることがある [3]。

各インフラ領域は固有のコーナーケースを抱える。送電線点検では、サブセンチメートルのキツツキ穴、紫外光でしか観測できないコロナ放電、構造全体に対して極端に小さい金具上の微細な導体ほつれなどに対応しなければならない [4]。橋梁点検では、表面には現れない内部マイクロクラック、複数欠陥の重なり、汚れや植生による遮蔽を伴う欠陥に直面する。風車ブレード点検では、肉眼でかろうじて見えるヘアラインクラック、雷撃による侵食、表層下の剥離など、ブレード一枚の交換だけで 30 万ドルを超える費用が発生する世界に向き合う。

10 クラスの欠陥で学習された YOLO 型のスカウトは、決して 11 番目をフラグしない。これは既知クラスのデータ量を増やしても解決しない。クローズドセットというパラダイムが持つ構造的性質である。「学習したどのクラスでもない」が正解で、実際の正解が「ここに何か異常がある」であるとき、スカウトが沈黙する。まさにこの故障モードを拾うために、アナリスト層は存在する。

二つの技術的方向性

データ希少下のオープンエンド検出に対し、よく提案される二つのアプローチを評価した。

オープンセット／ワンショット検出

T-Rex2 [5]、Grounding DINO [6]、DINO-X [7] といったモデルは、テキストプロンプト、ビジュアルプロンプト（例示用のバウンディングボックスやポイント）、あるいはその両方を用いて対象を局在化する。T-Rex2 は産業現場に直接関係する知見を提示している。一般的な物体ではテキストプロンプトがビジュアルプロンプトを上回るが、まれな物体（頻度順位 800〜1,200）ではビジュアルプロンプトがテキストを大きく上回る [5]。異常な欠陥パターンは言葉で記述しにくい一方、例示画像で示すのは容易である。

オープンセット検出器：精度と速度オープンセット検出モデルは精度と速度の明確なトレードオフを示す。本調査の対象モデルのなかでは、DINO-X が COCO および LVIS レアクラスの双方で最も高いゼロショット AP を報告し、YOLO-World は一次パススクリーニングに適したリアルタイム性能を提供する。バブルサイズは、コーナーケース検出に最も関係する指標である LVIS レアクラス AP に比例する。

DINO-X は強力なゼロショット結果を報告している。COCO で 56.0 AP、LVIS レアクラスで 63.3 AP、同論文で引用された従来最良値から 5.8 AP の改善である [7]。YOLO-World は 52 FPS で 35.4 AP を報告しており、Grounding DINO 系列より桁違いに高速である [8]。

コーナーケース業務に限れば、オープンセット検出器には実務上の限界がある。クライアントが対象とした事象は、プロンプトに基づく検出で確実に扱うにはあまりに一般的、あるいは曖昧であった。「構造的に異常なもの全般」「予期せぬ変形」といった概念は、テキストプロンプトにきれいに対応づけられず、ビジュアルプロンプトは環境条件をまたいで汎化しない可能性のある参照ボックスを必要とする。

VLM ベースの推論

Qwen2-VL [9]、InternVL [10]、LLaVA-OneVision [11] といった視覚言語モデルは、根本的に異なるアプローチを取る。プロンプトからバウンディングボックスを生成するのではなく、自然言語で画像を推論する。VLM ベースのアナリストには「この電柱に何か異常がありますか」と問えば、異常の構造化された記述、想定される原因、おおよその位置を返してくる。

産業用異常検知における VLM の進化は急速だ。AnomalyGPT（AAAI 2024）は、正常な参照画像 1 枚があれば、業界標準ベンチマークである MVTec-AD で精度 86.1%、画像レベル AUC 94.1% に到達し、なおかつマルチターンの診断対話を支えられることを示した [12]。LogicAD（AAAI 2025）は 論理的 異常（部品欠落、配置誤り）に取り組み、MVTec LOCO AD で 86.0% の AUROC、論文中で参照される従来手法から 18.1% の改善を報告している [13]。InfraGPT（2025）は、都市インフラの欠陥検出と管理のためのエンドツーエンド VLM ベースフレームワークを実証した [14]。

MMAD 産業用異常検知ベンチマーク MMAD ベンチマーク（ICLR 2025）は、産業用異常検知における VLM 評価としてはより包括的なもののひとつである。先端のフロンティアモデルですら大きな伸びしろを残していることが示されている。フロンティア API モデルとオープンウェイトモデルの差は、ドメイン特化適応の必要性を裏付ける。データは Jiang ら [15] より。

MMAD ベンチマーク（ICLR 2025）は、8,366 枚の産業画像にわたる 39,672 問を備え、GPT-4o ですら平均精度 74.9% に留まると報告している [15]。これは厳しくも示唆的な数字である。生の VLM 能力では不十分で、本番運用にはドメイン特化適応が不可欠であることを意味する。それを補う性質として、VLM は何が異常であるかをなぜそうなのかと併せてネイティブに説明できる。クローズドセットのスカウトには一切ない能力であり、下流のジャッジ層がエビデンスチップを検証するために必要とする能力でもある。

アナリスト層の適応スタック

この評価を踏まえ、我々がデプロイしたのは、三つの適応モードを備えた VLM ベースのアナリストである。各モードは独立して稼働でき、組み合わせて動作するよう設計されている（例：LoRA ファインチューニング済みモデルを推論時にさらに RAG で補強する）。三つのモードはデプロイメント成熟度の各段階に対応し、段階的に採用できる。

三つの適応経路三つの適応モードはデプロイメント成熟度の各段階に対応する。インコンテキスト学習は初日稼働を可能にし、LoRA ファインチューニングは本番運用の安定性をもたらし、ビジュアル RAG は再学習なしにドメイン知識を取り込む。

インコンテキスト学習：即時デプロイ

新しいコーナーケースが特定されたとき、インコンテキスト学習を使えばアナリストは当日のうちにそれを取り込める。参照画像（正常および欠陥）を指示テンプレートと共に VLM プロンプトに直接挿入する。Ueno ら（2025）は、シングルショット ICL でファインチューニングした ViP-LLaVA が MVTec-AD で MCC 0.804、F1 0.950 を達成し、専用モデルと競合する水準であることを示した [16]。例示選択においてユークリッド距離が cosine 類似度ベースの RICES を上回るという同論文の知見は、リトリーバル設計に実務上の含意を持つ。

トレードオフは機械的なものである。ICL は学習計算をゼロに抑えられるが、高解像度の検査画像 1 枚あたり 2,000〜4,000 ビジュアルトークンを消費し、コンテキストウィンドウを急速に埋める。性能は参照画像 4〜8 枚あたりで頭打ちになる。

Few-shot LoRA ファインチューニング：本番運用の安定性

安定かつ反復可能な挙動を要する定常的な検査運用には、LoRA [17] が有効である。Transformer のアテンション層に小さな分解行列を導入し、ベース重みを凍結したまま全体の 0.1〜0.5% のみを学習する。QLoRA はさらにベースモデルを 4-bit NF4 へ量子化する。Qwen2.5-VL-7B は、ランク 8 の QLoRA であれば VRAM 約 16〜24 GB の単一 GPU でファインチューニングできる。

必要データ量は意外に控えめだ。PLG-DINO（2025）は、低リソースの産業欠陥シナリオにおいて、LoRA でファインチューニングした Grounding DINO がすべての YOLO 派生モデルを上回ることを示した [18]。ただしこれは VLM ではなくオープンセット検出器に関する結果である。我々の VLM 実験では、ラベル付き 500〜2,000 例でゼロショットベースラインから大幅な改善が得られ、5,000 例を超えると逓減した。得られるアダプタの重みは 200〜400 MB で、フル重みの 14 GB 以上と比べて顧客ごとのバージョン管理や A/B テストが行いやすく、デプロイ単位ごとに監査可能でバージョニング可能な成果物が手元に残る。

ビジュアル RAG：ドメイン知識への接地

クライアントが内部知識（欠陥カタログ、設計ガイドライン、過去の類似事例）を保有している場合、RAG（リトリーバル拡張生成）が推論時にそのコンテキストを動的に注入する。これは Platform が一貫して用いている コンテキストパック のアナリスト層における具現化であり、クライアントの 内部コンテキスト と我々の Yodo コンテキスト（デプロイメントを横断して蓄積された故障モードアトラス）は、いずれもインデックス化され、クエリごとに取得される。

既知の欠陥画像は CLIP または DINOv2 埋め込みを用いてベクトルデータベースにインデックス化される。クエリごとに、視覚的に類似する上位 k 件が取得され、VLM プロンプトに注入される。VisRAG は文書を画像のまま埋め込むことで、テキストベース RAG に対しエンドツーエンドで 20〜40% の改善を実証している [19]。Wallace らの InspectVLM（2025）は警告的な対案を提供している。統一型 VLM アーキテクチャは、丁寧なドメイン特化適応を欠くと、検査ドメインの変化に対して顕著に劣化する [20]。

本層において RAG が際立つ利点は、各出力を具体的な取得エビデンスに紐づけられる点である。これはまさに、ジャッジ層が引用可能なエビデンスチップを伴う判定品質の出力を発するために必要とする性質に他ならない。トレーサビリティと厳密な監査可能性は同じではない。VLM の最終出力が、取得したエビデンスに忠実である保証はないからだ。しかし、トレーサビリティに下流のジャッジ層が加わって初めて、実務上の監査可能性が成立する。

vLLM：これを実用化するサービングエンジン

VLM ベースのアナリストが実用に耐えるのは、推論が本番運用に十分な速度と省メモリ性を備えている場合に限る。vLLM は PagedAttention と連続バッチングによってこれを可能にする [21][22]。

PagedAttention は KV キャッシュのボトルネックを解消する

自己回帰生成のあいだ、モデルは過去すべてのトークンに対するキーとバリュー行列（KV キャッシュ）を保持する。高解像度画像を処理する VLM では、この負荷は特に大きい。Qwen2-VL-7B（FP16 KV キャッシュ、28 層、4 KV ヘッドの GQA、128 次元ヘッド）のプロファイリングによれば、トークン 1 つあたり約 0.03 MB の KV キャッシュを生成する。つまり 1024×1024 画像 1 枚は約 4,096 ビジュアルトークンを生み、それだけで 100 MB 以上の KV キャッシュを消費する計算になる。

従来型サービングはシーケンスごとに連続メモリブロックを事前確保し、断片化と過剰確保により KV キャッシュメモリの 60〜80% を浪費していた [21]。

PagedAttention のメモリ管理 PagedAttention は OS の仮想メモリの概念を借用している。KV キャッシュブロックは非連続な物理メモリに格納され、ブロックテーブルを介してマッピングされる。メモリ浪費は 60〜80% から 4% 未満に低下し、スループットは 2〜4 倍向上する [21]。

PagedAttention は KV キャッシュを固定サイズのブロック（通常 16 トークン）に分割し、GPU メモリ上に非連続に格納する。各シーケンスは OS のページテーブルに相当するブロックテーブルを保持する。物理ブロックは要求に応じて割り当てられ、共通プレフィックスにはコピーオンライト共有が適用される。結果として、メモリ浪費は 4% 未満となり、スループットは 2〜4 倍に向上する [21]。

連続バッチングが GPU 利用率を最大化する

静的バッチングは、バッチ内の全リクエストを最遅のシーケンスに合わせて待たせる。vLLM の連続バッチングはイテレーション単位の粒度で動作する。デコードステップごとにスケジューラが完了したシーケンスを取り除き、待機中のシーケンスを差し込む。ベンチマークでは HuggingFace Transformers に対し 14〜24 倍、Text Generation Inference に対し 2.2〜3.5 倍のスループットが報告されている [21]。

vLLM V1 における VLM 固有の最適化

vLLM V1（2025）は重要なマルチモーダル機能を導入した [23]。エンコーダキャッシュは計算済みのビジョン埋め込みを GPU 上に保持し、類似プロンプト間でのビジョンエンコーダ再実行の冗長性を排除する。メタデータ強化型のプレフィックスキャッシュは、トークン ID だけでなく画像コンテンツのハッシュを利用し、同じ <image> プレースホルダを共有する異なる画像間でのキャッシュ衝突を防ぐ。ハイブリッド並列フラグ（--mm-encoder-tp-mode data）は、ビジョンエンコーダをデータ並列で実行しつつ言語モデルをテンソル並列で動かし、ビジョンエンコード中の all-reduce 通信を削減する。

Red Hat の開発者チームは、4×H100 GPU 構成の Molmo-72B において V0 比で約 40% のスループット改善を報告している [23]。AMD の ROCm チームは、データ並列ビジョンエンコードの有効化によって画像中心ワークロードで顕著な高速化が得られることを独立に確認した [24]。

本番デプロイメント：ハードウェア、タイリング、ハイブリッドパイプライン

GPU メモリとハードウェア選定

VLM は、ビジョンエンコーダ重み、ビジュアルトークン埋め込み、クロスモーダルアテンションのために、テキスト専用モデルを超える VRAM を必要とする。具体的な要件（我々の見積もり）は次のとおりだ。Qwen2-VL-7B は FP16 で約 16〜17 GB を要し（KV キャッシュの余裕を含めて L40S 1 枚に収まる）、INT8 では 8〜9 GB に下がる。Qwen2-VL-72B は FP16 で約 144 GB、FP8 なら 4×A100-80GB に収まる。min_pixels や max_pixels を制約しないまま高解像度画像を処理すると、24 GB の GPU で OOM になるという報告がある [9]。

本デプロイメントでは、NVIDIA L40S（48 GB GDDR6）がメモリ・スループット・調達コストのバランスに優れ、KV キャッシュの余裕を保ちつつ 7B VLM を全精度で扱えた。1 日あたり約 1,000 枚の画像であれば L40S 1 枚で十分であった。我々のコストモデルによれば、相当するクラウドコストに対してハードウェア購入の損益分岐は約 7〜10 か月だが、これはクラウド料金の地域差と稼働率により大きく変動する。

高解像度の検査画像をどう扱うか

産業用カメラは 4K 以上で撮像するが、VLM の入力上限は知的なタイリングを要求する。Qwen2-VL の 675M パラメータ ViT は、ネイティブ解像度のまま画像を可変トークン数に変換し、min_pixels と max_pixels で制御する [9]。InternVL は画像を 448×448 のタイル（1〜40 枚、4K まで対応）に分割し、ピクセルシャッフルにより各タイルを 256 ビジュアルトークンに圧縮し、グローバルサムネイルを併用する [10]。

4K 検査画像に対する我々の推奨手順は次のようになる。事前に上限解像度（長辺 2048〜4096 px）へリサイズし、欠陥局在のためにスライディングウィンドウクロップを用い、全体コンテキスト用の低解像度の全体像と関心領域の高解像度クロップを併走させ、結果をタイル間で集約しつつ non-maximum suppression を適用する。

ハイブリッドパイプライン

ハイブリッド検出パイプライン本番パイプラインは、高速な一次パススカウトと VLM ベースのアナリストを組み合わせる。我々のデプロイメントでは、画像のおよそ 85〜95% が一次パススカウトでフィルタリングされ、アナリストの推論量は 7〜20 倍削減された。

ハイブリッドアーキテクチャは速度と深さを両立する。カメラやドローンの映像から取り込まれた画像は、前処理サービス（リサイズ、正規化、タイル化）に流れる。軽量な一次パスの スカウト（YOLO のような物体検出器、PatchCore のような異常検知手法、SigLIP のような視覚言語エンコーダ）が明らかな正常ケースをフィルタリングする。重要なのは、このスカウトが高精度ではなく高再現率を目標としてチューニングされている点である。 スカウトの仕事は、明白に正常な画像のみを自信を持って排除し、曖昧あるいは境界線上のものはすべてアナリストへ送ることだ。一次段を高精度寄りにチューニングすれば、アナリストが拾うために存在しているコーナーケースを、まさにその段で取り落とすリスクを抱える。

我々のデプロイメントでは、スカウトの動作点は、意図的に低めの閾値を超える異常スコアを持つ画像をすべて残し、加えて「不確実」サンプルの一部を設定値で残す構成とした。vLLM 上で OpenAI 互換 API として提供される VLM アナリストは、フラグされた画像のみを構造化システムプロンプトで処理し、欠陥タイプ、位置座標、重大度、自然言語による根拠を含む JSON を返す。後処理ではマルチタイル結果の集約、業務ルールの適用、クライアントの欠陥カタログとの突き合わせが行われる。アラートは既存の MES/ERP システムと連携する。

vLLM の主要設定：KV キャッシュ最大化のための --gpu-memory-utilization 0.9、繰り返し用いるシステムプロンプトに対するプレフィックスキャッシュの有効化、リクエストあたりのメモリを抑える --limit-mm-per-prompt "image=5"、長い画像プロンプトがデコードをブロックしないようにするためのチャンクド・プレフィル。

動作条件付きの性能指標。スループットとレイテンシは別物であり、それぞれ別の動作点を持つ。単一の数値が系全体を代表するかのような誤解を避けるため、双方を測定条件と共に報告する。

VLM 段のスループット。 単一 L40S 上の Qwen2.5-VL-7B（FP16）、長辺 1024〜2048 px の画像入力と 60〜200 出力トークンの構造化出力プロンプト、プレフィックスキャッシュ有効化およびバッチ同時実行 4〜8 の vLLM V1 構成下で、構成点に応じて 毎分 10〜60 枚 を計測した。1 日分の検査画像の容量計画に関係するのはこの数値である。
フラグ画像 1 枚あたりのレイテンシ（P50）。 同一ハードウェアおよびモデル。プレフィックスキャッシュ済みシステムプロンプト、事前ウォームアップ済みビジョンエンコーダ、バッチ同時実行なしの条件で、フラグされた画像 1 枚は およそ 1〜4 秒 で構造化レスポンス全体を返す。特定の所見をオペレータが待っているときに関係するのはこの数値だ。
ハイブリッドパイプラインのオペレータ可視レイテンシ。 ハイブリッド構成では、画像のうちアナリストに到達するのはスカウトがフラグした 5〜15% のみである。スカウトが除外する 85〜95% については、オペレータ可視のレイテンシはスカウトのフレームレート（数十ミリ秒）に支配される。したがって、ルーチン多数派ではエンドツーエンドのサブ秒応答が通常であり、フラグされたコーナーケースについては上記の画像単位レイテンシが反映される。
レイテンシエンジニアリングの目標値。 我々のレイテンシエンジニアリングノートで論じている「エンドツーエンドで 1 秒以下」という目標は、まったく別の動作領域、すなわち小型モデル、軽量プロンプト、ストリーミング出力、フルレスポンス完了前に部分結果を提示する UX を指している。その領域は、本稿で記述している構造化 JSON のアナリスト挙動とは別物である。

これらの数値のいずれかを他と切り離して引用するのは誤解を招くため、本稿ではそれを避けるよう努めた。

アナリストの構造化出力はその上のジャッジ層が監査する対象であり、自然言語の根拠はエビデンスチップを引用可能にするための要素となる。ハイブリッドパイプラインは、Platform のオーケストレーションのうち「スカウト、その後にアナリスト」というスライス 1 枚を実装したものであり、独立した製品ではない。

学んだことと、未解決の課題

本アナリスト層設計を形づくった知見は三つある。

この案件において、ハイブリッドアーキテクチャが最も強力な設計であることが確認された。 画像中心で異常率の低い類似の検査ワークロードにも適用可能なパターンと考えられるが、現時点では単一案件における知見である。ミリ秒レイテンシで動作する高速な一次パススカウトが正常画像の大多数をフィルタリングし（我々のデプロイメントでは 85〜95%）、VLM ベースのアナリストはクローズドセットのスカウトでは構造上扱えないコーナーケースのために、必要な推論の深さを提供する。

ベースモデル選定よりも、適応スタックの方が効く。 我々のデプロイメントでは、約 1,000 件のドメイン特化サンプルで LoRA ファインチューニングし、さらにビジュアル RAG で補強した 7B VLM が、対象とした検査タスクでフロンティアモデルの生の能力を大きく上回った。ただしこれは単一案件の知見であり、統制されたベンチマーク結果ではない。段階的アプローチ（数日でゼロショット、数週間で LoRA、数か月でドメイン特化）は、本番精度を積み上げる過程で即時的な価値も提供する。

画像中心の検査ワークロードにおいて、vLLM V1 のマルチモーダル機構は VLM ベースアナリストの経済性を実質的に改善する。 エンコーダキャッシュ、ハイブリッド並列、メタデータ強化型プレフィックスキャッシュは、画像中心ワークロード特有のメモリとスループットの課題に正面から取り組んでいる。

残された差分は精度である。最強の VLM ですら MMAD で 74.9% にとどまり [15]、現行手法の限界を露呈させるべく設計された MVTec AD 2 データセットでは、先端手法でも平均 AU-PRO は 60% 未満と報告されている [25]。この差を埋めることが現在進行中の研究テーマであり、ドメイン特化ファインチューニング、検査フィードバックからの強化学習（EMIT [26] の方向性）、そして並行して我々が追求している、VLM アナリストのポリシーをそれを包むオーケストレーションと共同で最適化する「学習可能なツール使用ビジョン」の方向性が含まれる。その作業は本アナリストと Platform 全体アーキテクチャの交点に位置しており、結果が公表可能となった段階で別途まとめる予定である。

References

Shihavuddin et al. "Barely-Visible Surface Crack Detection for Wind Turbine Sustainability." arXiv:2407.07186, 2024.
Baitieva et al. "Supervised Anomaly Detection for Complex Industrial Images." CVPR 2024.
Li et al. "Surface Defect Detection Methods for Industrial Products with Imbalanced Samples: A Review of Progress in the 2020s." Knowledge-Based Systems, 2024.
Zhang et al. "Deep Learning in Automated Power Line Inspection: A Review." arXiv:2502.07826, 2025.
Jiang et al. "T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy." ECCV 2024. arXiv:2403.14610.
Liu et al. "Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection." ECCV 2024. arXiv:2303.05499.
Ren et al. "DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding." arXiv:2411.14347, 2024.
Cheng et al. "YOLO-World: Real-Time Open-Vocabulary Object Detection." CVPR 2024. arXiv:2401.17270.
Wang et al. "Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution." arXiv:2409.12191, 2024.
Chen et al. "InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks." CVPR 2024.
Li et al. "LLaVA-OneVision: Easy Visual Task Transfer." arXiv:2408.03326, 2024.
Gu et al. "AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models." AAAI 2024 (Oral). arXiv:2308.15366.
Kim et al. "LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction." AAAI 2025.
Alani et al. "InfraGPT Smart Infrastructure: An End-to-End VLM-Based Framework for Detecting and Managing Urban Defects." arXiv:2510.16017, 2025.
Jiang et al. "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection." ICLR 2025. arXiv:2410.09453.
Ueno et al. "Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model." arXiv:2502.09057, 2025.
Hu et al. "LoRA: Low-Rank Adaptation of Large Language Models." ICLR 2022. arXiv:2106.09685.
Chen et al. "PLG-DINO: Industrial Defect Detection via Prompt-Learning Grounding DINO." OpenReview, 2025.
Yu et al. "VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents." arXiv:2410.10594, 2024.
Wallace et al. "InspectVLM: Unified in Theory, Unreliable in Practice." ICCV 2025 Workshop.
Kwon et al. "Efficient Memory Management for Large Language Model Serving with PagedAttention." SOSP 2023. arXiv:2309.06180.
vLLM Project. github.com/vllm-project/vllm
Red Hat Developer. "vLLM V1: Accelerating Multimodal Inference for Large Language Models." 2025.
AMD ROCm Blogs. "Accelerating Multimodal Inference in vLLM: The One-Line Optimization for Large Multimodal Models." 2025.
Bergmann et al. "The MVTec AD 2 Dataset: Advanced Scenarios for Unsupervised Anomaly Detection." arXiv:2503.21622, 2025.
Li et al. "EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO." arXiv:2507.21619, 2025.