この記事はQiita LLM・LLM活用 Advent Calendar 2024の7日目の記事です。 ここではQwen2-VLを例に、画像に対するBounding Boxを入力や出力に含む対話生成の例を見ていきます。 なおこの記事中における「理解」は、バウンディングボックスの概念が伝わるのみならず、テキストで表現されたバウンディングボックスの座標が画像中の正確な座標と結びつくことを意図しています。 VLMがBounding Boxを理解できる理由 一部のVLMは訓練時に明示的にBounding Boxが含まれたテキストでの学習を行っています。 Bounding Boxを明示的に学習しているVLMの例としては、LLaVA 1.5やQwen-VL (Qwen2-VL含む)、Fuyu-8Bが挙げられます。日本語特化モデルならLLaVA 1.5の学習に倣っているllava-calm2-sigli