ダミー変数化とは

ダミー変数化(Dummy Variable Encoding)とは、カテゴリカルデータを機械学習モデルが扱える数値形式に変換する手法。

ダミー変数化(Dummy Variable Encoding)は、統計学および機械学習において、カテゴリカルデータ(名義尺度や順序尺度で表される非数値データ)を、機械学習モデルが直接扱える数値形式(通常は二値の0または1)に変換する手法です。この変換は、カテゴリカル特徴量をモデルの入力として適切に機能させるために不可欠であり、特に線形回帰やロジスティック回帰のような、数値入力を前提とするモデルで広く用いられます。

ダミー変数化 の基本的な概念

多くの機械学習アルゴリズムは、数値データを入力として期待します。しかし、性別(男性、女性)、色(赤、青、緑)、地域(東京、大阪、福岡)のようなカテゴリカルデータは、そのままでは数値的な大小関係や連続性を持たないため、モデルに直接入力することはできません。ダミー変数化は、これらのカテゴリを独立した数値特徴量に変換することで、この問題を解決します。

主要な概念は以下の通りです。

  1. カテゴリの数値表現: カテゴリカル特徴量の各カテゴリが、新しいバイナリ(0または1)の特徴量(ダミー変数)として表現されます。
  2. 線形モデルへの適用: ダミー変数化は、線形回帰やロジスティック回帰のように、特徴量間の線形関係を仮定するモデルにおいて特に有効です。これにより、モデルは各カテゴリが目的変数に与える影響を個別に評価できるようになります。
  3. 「次元の呪い」と高次元性の問題: カテゴリの数が多い場合、ダミー変数の数が大幅に増加し、特徴量空間の次元が膨大になる可能性があります。これは「次元の呪い(Curse of Dimensionality)」として知られる問題を引き起こし、モデルの訓練を困難にしたり、過学習のリスクを高めたりすることがあります。

ダミー変数化 の主な手法

ダミー変数化にはいくつかの手法がありますが、最も一般的なのは「ワンホットエンコーディング」です。

  1. ワンホットエンコーディング(One-Hot Encoding): カテゴリカル特徴量の各カテゴリに対して、それぞれ新しいダミー変数を1つずつ作成します。元のデータのある観測値が特定のカテゴリに属する場合、そのカテゴリに対応するダミー変数の値は1となり、その他の全てのダミー変数の値は0となります。
    • : 「色」という特徴量があり、カテゴリが「赤」「青」「緑」の場合:
      • 元のデータ: 色 = '赤'
      • 変換後: 色_赤 = 1, 色_青 = 0, 色_緑 = 0
    • 利点:
      • カテゴリ間に順序関係がない場合に適切です。
      • 各カテゴリが独立してモデルに影響を与えることが可能になります。
      • モデルがカテゴリ間の誤った数値的関係性を学習するのを防ぎます。
    • 課題:
      • 多重共線性の問題(Dummy Variable Trap): 全てのカテゴリに対してダミー変数を生成すると、それらのダミー変数間に完全な線形関係が生じます。例えば、色_赤 + 色_青 + 色_緑 = 1 が常に成り立ちます。この線形従属性は、線形モデル(特に重回帰分析)において、パラメータの推定を不安定にしたり、一意に決定できなくしたりする「多重共線性」の問題を引き起こす可能性があります。 これを回避するためには、通常、**基準カテゴリ(Reference Category)**を設定し、いずれか1つのダミー変数を削除します。つまり、K 個のカテゴリがある場合、K−1 個のダミー変数を作成します。 \text{ダミー変数の数} = \text{カテゴリの総数} – 1
      • 次元の呪い: カテゴリの数が多い特徴量の場合、生成されるダミー変数の数が膨大になり、モデルの計算コストやメモリ使用量が増大し、過学習のリスクを高めます。
  2. 順序エンコーディング(Ordinal Encoding / Label Encoding): カテゴリに明確な順序関係がある場合(例:「小」「中」「大」)、各カテゴリを直接整数値に変換する手法です。
    • : 小 = 0, 中 = 1, 大 = 2
    • 利点:
      • ダミー変数化と異なり、特徴量の次元が増加しません。
    • 課題:
      • 数値化した際に、カテゴリ間に不適切な数値的な大小関係をモデルに学習させてしまう可能性があります(例:赤=0, 青=1, 緑=2とした場合、モデルが「緑は赤の2倍大きい」といった誤った関係を学習する)。このため、カテゴリに明確な順序関係がない場合は不適切です。
      • 決定木ベースのモデル(例:決定木、ランダムフォレスト、勾配ブースティング)は、カテゴリ間の順序関係を学習できるため、順序エンコーディングが有効な場合があります。

ダミー変数化 の適用と考慮事項

  • モデルの選択: 線形回帰、ロジスティック回帰、サポートベクターマシン(SVM)、ニューラルネットワークなど、数値入力を前提とする多くのモデルにはダミー変数化(特にワンホットエンコーディング)が推奨されます。 一方、決定木ベースのモデル(例:決定木、ランダムフォレスト、XGBoost, LightGBM)は、カテゴリカルデータを直接扱うことができる、または順序エンコーディングでも良好な性能を示すことがあります。
  • 欠損値の扱い: ダミー変数化を行う前に、カテゴリカル特徴量に含まれる欠損値(例:NaN)を適切に処理する必要があります。欠損値を新たなカテゴリとして扱うか、最も頻繁に出現するカテゴリで補完するか、あるいは欠損値を示す専用のダミー変数を設けるかなどを検討します。
  • 新しいカテゴリへの対応: 訓練データには存在せず、推論時に初めて出現する新しいカテゴリ(未知のカテゴリ)への対応も考慮が必要です。これらは通常、全てゼロのダミー変数として扱われたり、特定のエラー値として処理されたりします。
  • 特徴量ハッシング(Feature Hashing): 非常に多数のカテゴリを持つ特徴量の場合に、次元の呪いを回避するために用いられる手法です。ハッシュ関数を用いて、カテゴリを固定次元のベクトルにマッピングします。衝突が発生する可能性がありますが、メモリ効率に優れます。

ダミー変数化は、カテゴリカルデータを機械学習モデルが扱える数値形式(通常は二値の0または1)に変換する必須の手法です。

最も一般的なワンホットエンコーディングでは、各カテゴリが独立したダミー変数となり、特に線形モデルに有効です。しかし、多重共線性や次元の呪いといった課題に対処するため、K−1 個のダミー変数を作成したり、カテゴリ数が多い場合は順序エンコーディングや特徴量ハッシングを検討したりする必要があります。

適切なダミー変数化は、モデルがカテゴリカルデータから有益な情報を抽出し、予測性能を向上させる上で極めて重要なステップです。

関連用語

次元の呪い | 今更聞けないIT用語集
カテゴリカルデータ | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。