MLMとは

MLMは、自然言語処理(NLP)の分野で用いられるTransformerベースの大規模言語モデル(LLM)の訓練において、入力文から一部の単語をマスク(穴埋め)し、そのマスクされた単語を周囲の文脈に基づいて予測させるという事前学習タスクのことです。

MLMの概要と文脈学習における役割

MLM(Masked Language Model、マスクされた言語モデル)は、Googleが開発したBERT(Bidirectional Encoder Representations from Transformers)モデルで導入された、革新的な事前学習手法です。

従来の言語モデルが一方向(左から右、または右から左)にしか文脈を処理できなかったのに対し、MLMは、モデルが双方向の文脈を考慮して単語を予測することを可能にしました。

双方向性の実現

従来の言語モデル(例:GPTの初期モデル)は、シーケンスの前の単語だけを見て次の単語を予測する(自己回帰的な)タスクに基づいています。この手法では、文の後ろ側にある情報を、前の単語の表現を学習する際に利用することができません

MLMでは、入力文中のランダムに選ばれた単語(通常は15%程度)をマスクし、モデルはそのマスクされた単語を、その単語の左側と右側の両方の文脈を用いて予測します。これにより、モデルは文全体にわたる深い文脈的依存関係を学習することができ、より高品質な単語の表現(埋め込み)を獲得できます。

主な目的は、入力文中の任意の単語に対して、その両側の文脈全体を考慮した高度な理解力をモデルに持たせることであり、自然言語理解(NLU)タスクの性能を大幅に向上させる基盤となります。

MLMの動作原理と訓練プロセス

1. マスク処理

事前学習の際、訓練データセットの各文から単語がランダムに選択され、以下のいずれかの方法で置き換えられます(通常、以下の割合で実行されます)。

  1. [MASK] トークンに置き換え(80%): ほとんどのマスクされた単語は、特殊な[MASK]トークンに置き換えられます。
  2. ランダムな別の単語に置き換え(10%): マスク対象の単語を、語彙内の別のランダムな単語に置き換えます。
  3. そのまま残す(10%): マスク対象の単語をそのまま残します。

これらの確率的な処理は、モデルが実際に[MASK]トークンを見たときだけでなく、入力された単語が誤っている可能性がある状況にも対応できるように学習することを促し、モデルの堅牢性を高めます。

2. 予測と損失計算

  • 予測: モデルは、マスクされた単語の位置に対応する最終層の出力ベクトルを取得し、それを全語彙数に対応するSoftmax層に通して、どの単語がマスクされた位置に入るかという確率分布を予測します。
  • 損失関数: モデルは、予測された単語の確率分布と、実際の正解単語との間の誤差(例:交差エントロピー損失)を計算し、この損失を最小化するように重みを更新します。この損失計算は、マスクされた単語の箇所のみで行われ、マスクされていない単語は損失計算には関与しません。

MLMの利点と発展

1. ゼロから学習する強み

MLMは、ラベル付けされていない大量のテキストデータのみを使用して、言語の深い構造を学習することができます(教師なし学習)。

これにより、アノテーション(ラベル付け)された訓練データが不足している多くの実用的なタスクにおいて、事前学習済みモデルが強力な初期知識を提供できる転移学習が可能となります。

2. 性能の向上

双方向の文脈を利用できるMLMのおかげで、BERTやその派生モデル(RoBERTa、DeBERTaなど)は、文脈理解を要するタスク(質問応答、自然言語推論、固有表現抽出など)で、従来のモデルを大きく上回る性能を達成しました。

3. 改良と進化

MLMの概念は、その後も改良が続けられています。例えば、Whole Word Maskingは、単語の一部ではなく単語全体をマスクすることで、より困難な予測タスクをモデルに課し、学習を深化させる手法です。また、より効率的な学習を目的としたElectraモデルでは、置き換えられた単語を元の単語かどうか識別させるタスク(Replaced Token Detection)が採用されており、MLMの基本的なアイデアが現在も発展し続けています。

関連用語

教師なし学習 | 今更聞けないIT用語集
自然言語処理 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。