層の正規化とは

層の正規化(Layer Normalization)は、深層ニューラルネットワーク(Deep Neural Network, DNN)の訓練を安定化させ、収束を加速させるために用いられる正規化手法の一つです。

バッチ正規化(Batch Normalization)がミニバッチ内の異なるサンプルにわたって各特徴量を正規化するのに対し、層の正規化は、各訓練サンプル内の異なる特徴量(ニューロン)にわたって正規化を行います。この特性により、層の正規化はバッチサイズが小さい場合や、リカレントニューラルネットワーク(RNN)など、サンプル間の依存性が強いネットワークにおいて特に有効であることが知られています。

層の正規化 の基本概念

深層ニューラルネットワークの訓練において、層を深く重ねるにつれて、内部共変量シフト(Internal Covariate Shift)と呼ばれる現象が発生しやすくなります。これは、ネットワークの中間層への入力分布が、訓練の過程で大きく変化することで、学習が不安定になったり、収束が遅くなったりする問題です。

層の正規化は、各層の活性化出力を、その層内の全てのニューロンにわたって平均を0、分散を1に正規化することで、この内部共変量シフトを抑制しようとします。具体的には、各訓練サンプルごとに、その層の全てのニューロンの活性化値の平均と分散を計算し、これらの統計量を用いて各活性化値を正規化します。その後、学習可能なスケールパラメータ γ とシフトパラメータ β を用いて、正規化された値をスケールおよびシフトすることで、ネットワークが必要とする表現力を維持します。

層の正規化 の数式表現

ある層の入力ベクトルを h=(h1​,h2​,…,hN​) とすると、層の正規化された出力 h′ は以下のように計算されます。

  1. 平均 μ の計算: μ=N1​i=1∑N​hi​ ここで、N は層内のニューロンの数です。
  2. 分散 σ2 の計算: σ2=N1​i=1∑N​(hi​−μ)2
  3. 正規化された値 h^i​ の計算: h^i​=σ2+ϵ​hi​−μ​ ここで、ϵ はゼロ除算を防ぐための小さな定数です。
  4. スケールとシフト: hi′​=γi​h^i​+βi​ ここで、γ=(γ1​,…,γN​) と β=(β1​,…,βN​) は学習可能なスケールパラメータとシフトパラメータであり、訓練中に最適化されます。

バッチ正規化との違い

層の正規化とバッチ正規化の主な違いは、正規化を行う方向です。

  • バッチ正規化: ミニバッチ内の異なる訓練サンプルにわたって、各特徴量(ニューロン)を正規化します。そのため、バッチサイズが小さい場合には統計量の推定が不安定になる可能性があります。
  • 層の正規化: 各訓練サンプル内で、異なる特徴量(ニューロン)にわたって正規化を行います。そのため、バッチサイズに依存せず、小さなバッチサイズでも安定した学習が可能です。

また、RNNのような系列データを扱うネットワークでは、バッチ正規化を適用することが難しい場合がありますが、層の正規化は各時間ステップの隠れ状態ベクトルに対して独立に適用できるため、RNNとの相性が良いとされています。

層の正規化 の利点

  • バッチサイズへの依存性の低さ: 小さなバッチサイズでも安定した学習が可能です。
  • RNNとの親和性: 系列データの時間方向の依存性を損なうことなく適用できます。
  • 内部共変量シフトの軽減: 各層の入力分布を安定化させることで、学習の収束を加速させます。
  • 勾配消失・勾配爆発の抑制: 学習をより安定させ、深いネットワークの訓練を容易にします。

層の正規化 の応用

層の正規化は、特に以下のネットワークアーキテクチャやタスクで広く用いられています。

  • リカレントニューラルネットワーク(RNN): LSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)などのRNNにおいて、性能向上に貢献します。
  • Transformer: 自然言語処理におけるTransformerモデルの重要な構成要素の一つであり、自己注意機構(Self-Attention)の後などに適用されます。
  • 生成モデル: GAN(Generative Adversarial Network)やVAE(Variational Autoencoder)など、学習が不安定になりやすい生成モデルにおいても有効です。

層の正規化は、深層ニューラルネットワークの学習を安定化させ、特にバッチサイズが小さい場合や系列データを扱うネットワークにおいて有効な正規化手法です。バッチ正規化とは正規化の方向が異なり、各層内のニューロンにわたって統計量を計算し正規化を行います。RNNやTransformerといった現代的な深層学習モデルにおいて、その重要性は増しています。

関連用語

バッチ正規化 | 今更聞けないIT用語集
深層ニューラルネットワーク | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。