アンカーボックスとは

アンカーボックスは、物体検出(Object Detection)のためのディープラーニングモデル、特にTwo-Stage DetectorやSingle-Shot Detectorにおいて、予測の基準点として事前に定義される、様々なアスペクト比とスケールを持つ矩形領域のことであり、画像内の異なるサイズや形状の物体を効率的に検出するために、モデルが最終的な境界ボックスを調整する出発点となるための参照枠のことです。

アンカーボックスの概要と物体検出における役割

アンカーボックス(Anchor Box、またはPrior Box)は、画像内のどこに、どのような大きさや形の物体が存在するかを予測するタスク(物体検出)の精度と効率を向上させるために導入された重要な概念です。

従来の物体検出手法では、画像全体をスキャンし、物体の存在が疑われる全ての領域(リージョン)を抽出して分類する必要がありました。アンカーボックスは、このプロセスを構造化し、モデルの予測をガイドします。

1. 定義と特性

アンカーボックスは、画像上の固定された格子点(グリッドセル)のそれぞれに割り当てられます。各グリッドセルには、通常、複数のアンカーボックスが割り当てられ、それらは以下の特性を持ちます。

  • スケール(Scale): アンカーボックスの絶対的なサイズ(例:小さい、中程度、大きい)。
  • アスペクト比(Aspect Ratio): アンカーボックスの幅と高さの比率(例:横長、正方形、縦長)。

モデルは、学習プロセスにおいて、これらのアンカーボックスを基点として使用し、「このアンカーボックスの領域に物体が存在するか?」および「もし存在するならば、その物体の境界ボックスをアンカーボックスからどれだけ微調整(オフセット)すればよいか?」を学習します。

主な目的は、画像全体で考えられる膨大な数の境界ボックス候補の中から、物体が存在する可能性が高い領域を事前に絞り込み、モデルの学習を安定させることです。

アンカーボックスの利用プロセス

アンカーボックスは、物体検出モデルの訓練(学習)時と推論(予測)時の両方で重要な役割を果たします。

1. 訓練時の割り当て(マッチング)

モデルを訓練する際、アンカーボックスと正解データ(Ground Truth)の境界ボックスとの間でマッチングが行われます。

  • IoUの計算: アンカーボックス $A$ と正解境界ボックス $G$ との重なり具合を示すIoU(Intersection over Union)が計算されます。

\text{IoU} = \frac{\text{領域 } A \text{ と } G \text{ の共通部分の面積}}{\text{領域 } A \text{ と } G \text{ の和集合の面積}}

  • ラベル付け:
    • Positive(物体あり): IoUが特定の高い閾値(例:0.7)を超えたアンカーボックスには、対応する物体のクラス(例:人、車)と、境界ボックスを修正するためのオフセットが正解データとして割り当てられます。
    • Negative(物体なし): IoUが特定の低い閾値(例:0.3)を下回ったアンカーボックスには、背景(物体なし)のラベルが割り当てられます。
    • Ignored(無視): その中間にあるアンカーボックスは、学習に影響を与えないように無視されることが一般的です。

2. 推論時の予測と後処理

推論時、モデルは各アンカーボックスに対して二つの出力を生成します。

  • クラス分類の確率: そのアンカーボックスに特定の物体(クラス)が存在する確率。
  • 境界ボックスのオフセット: 最終的な物体の位置と大きさを得るために、アンカーボックスの座標 $(x, y, w, h)$ をどれだけ調整すべきかを示す数値。

予測された境界ボックスは、非最大抑制(Non-Maximum Suppression, NMS)という後処理を経て、重なり合う多数の冗長な予測ボックスが一つに絞り込まれ、最終的な検出結果となります。

アンカーボックスの課題と発展

アンカーボックスは物体検出に革新をもたらしましたが、その設計には以下の課題があります。

  • ハイパーパラメータ依存性: アンカーボックスのスケールとアスペクト比は、データセット(例:検出したい物体の平均的な形状)に応じて手動で設定する必要があるハイパーパラメータです。不適切な設定は、検出精度を大きく低下させます。
  • 柔軟性の欠如: アンカーボックスは静的(固定)であるため、データセット内に定義されたアンカーと大きく異なるサイズの物体(極端に小さい物体や細長い物体)の検出に苦慮する場合があります。

これらの課題に対処するため、近年ではアンカーボックスを使用しないAnchor-Freeな手法も登場しています。これは、アンカーボックスの代わりにキーポイント(中心点、コーナーなど)を予測したり、直接グリッドセルから境界ボックスを予測したりするもので、より柔軟な物体検出を目指しています。

関連用語

深層学習・ディープラーニング | 今更聞けないIT用語集
画像処理 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。