AdaBoundとは

AdaBound(Adaptive Gradient Bounds)とは、深層学習における勾配降下法の最適化アルゴリズムの一つであり、広く用いられているAdamの高速な収束性と、古典的なSGD(Stochastic Gradient Descent)の優れた汎化性能を両立させることを目指して開発されました。学習初期にはAdamのように適応的な学習率で高速に収束し、学習終盤には学習率の変化を制限することでSGDに近い安定した収束を実現します。

AdaBound の基本概念

AdaBound は、Adamと同様に各パラメータに対して適応的な学習率を適用しますが、その学習率の変化に制約を加える点が特徴です。具体的には、学習の進行に伴い、各パラメータの学習率が徐々に特定の下限と上限の範囲に近づくように調整されます。これにより、学習初期の不安定さを抑えつつ、終盤での過度な学習率の低下を防ぎ、より安定した収束と良好な汎化性能を獲得します。

AdaBound の仕組み

AdaBound のパラメータ更新式は、Adamの更新式を基に、学習率 α を時間ステップ t に依存する範囲 [ηl​(t),ηu​(t)] 内に制約する形で定義されます。

Adamの更新式(簡略化):

m_t = β_1 * m_{t-1} + (1 - β_1) * g_t
v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2
\hat{m}_t = m_t / (1 - β_1^t)
\hat{v}_t = v_t / (1 - β_2^t)
θ_{t+1} = θ_t - \alpha * \hat{m}_t / (\sqrt{\hat{v}_t} + \epsilon)

AdaBound の更新式:

m_t = β_1 * m_{t-1} + (1 - β_1) * g_t
v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2
\hat{m}_t = m_t / (1 - β_1^t)
\hat{v}_t = v_t / (1 - β_2^t)
\eta_t = clip(\alpha / (\sqrt{\hat{v}_t} + \epsilon), \eta_l(t), \eta_u(t))
θ_{t+1} = θ_t - \eta_t * \hat{m}_t

ここで、

  • θt​ は時刻 t におけるパラメータ
  • gt​ は時刻 t における損失関数の勾配
  • mt​, vt​ はそれぞれモーメントと二乗勾配の指数移動平均
  • m^t​, v^t​ はバイアス補正されたモーメントと二乗勾配
  • α は初期学習率
  • β1​, β2​ は指数移動平均の減衰率
  • ϵ は数値的な安定性のための小さな値
  • ηt​ は時刻 t における制約された学習率
  • ηl​(t), ηu​(t) は時刻 t における学習率の下限と上限
  • clip(x,a,b) は x を [a,b] の範囲にクリップする関数

学習率の境界 ηl​(t) と ηu​(t) は、学習の進行とともに徐々に狭まるように設計されます。

AdaBound のメリット

  • 高速な初期収束: 学習初期にはAdamと同様の高速な収束を示します。
  • 安定した終盤の収束: 学習終盤には学習率の変化が制限されるため、SGDに近い安定した収束を実現します。
  • 良好な汎化性能: 学習終盤の安定した収束により、過学習を抑制し、良好な汎化性能が得られやすいです。
  • Adamからの容易な移行: Adamをベースとしているため、既存のAdamの実装から比較的容易に移行できます。

AdaBound のデメリット

  • ハイパーパラメータの調整: 初期学習率 α や境界の調整に関するハイパーパラメータを適切に設定する必要があります。
  • 計算コスト: Adamと同様に、SGDよりも多くの計算リソースを必要とする場合があります。

AdaBound の応用例

AdaBound は、様々な深層学習タスクにおいて、Adamの代替として利用されることが期待されます。

  • 画像認識
  • 自然言語処理
  • 強化学習

まとめ

AdaBound は、Adamの高速な収束性とSGDの優れた汎化性能を兼ね備えることを目指した最適化アルゴリズムです。学習初期の高速収束と学習終盤の安定した収束により、多くの深層学習タスクにおいて有望な選択肢となります。

関連用語

深層学習 | 今更聞けないIT用語集
確率的勾配降下法 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。