アンダーサンプリングとは

アンダーサンプリング(Undersampling)とは、主に機械学習において、分類問題のデータセットが不均衡(特定のクラスのデータ数が極端に多い「多数派クラス」が存在する)である場合に、多数派クラスのデータ数を人工的に削減し、クラス間のバランスを改善するデータ前処理手法を指します。

これにより、モデルが少数派クラスのパターンをより適切に学習できるようになり、分類性能の向上を目指します。

アンダーサンプリングの基本的な概念

現実世界のデータセットでは、正常なケースが異常なケースよりもはるかに多いなど、クラス間のデータ数に大きな偏りがあることが珍しくありません。このような不均衡データをそのまま機械学習モデルに与えると、モデルはデータ数の多い多数派クラスのパターンを優先的に学習し、データ数の少ない少数派クラスの識別性能が著しく低下する可能性があります。アンダーサンプリングは、この問題を解決するための重要なアプローチの一つです。

主な概念は以下の通りです。

  1. データ不均衡(Imbalanced Data): 分類問題において、あるクラスのサンプル数と別のクラスのサンプル数の間に大きな差がある状態です。
  2. 多数派クラス(Majority Class): サンプル数が多い方のクラス。
  3. 少数派クラス(Minority Class): サンプル数が少ない方のクラス。通常、関心のある事象(例:詐欺、疾病など)がこのクラスに該当することが多いです。
  4. クラスバランスの改善: アンダーサンプリングの目的は、多数派クラスのデータを減らすことで、多数派クラスと少数派クラスの比率を是正し、モデルが両方のクラスを公平に学習できるようにすることです。

アンダーサンプリングの主な手法

アンダーサンプリングにはいくつかの手法があり、それぞれデータの削減方法が異なります。

  1. ランダムアンダーサンプリング(Random Undersampling):
    • 動作原理: 多数派クラスのサンプルから、目標とするサンプル数に達するまで無作為にデータを削除します。最もシンプルで直接的な手法です。
    • 利点: 実装が非常に容易で、データセットのサイズを削減するため、学習時間が短縮される可能性があります。
    • 課題: 多数派クラスの重要な情報が含まれるサンプルが無作為に削除されてしまう可能性があり、結果として情報損失が生じ、モデルの性能が低下するリスクがあります。
  2. Tomek Links(Tomek Link Removal):
    • 動作原理: 異なるクラスに属する2つのサンプルで、互いに最も近い「最近傍」であるようなペア(Tomek Link)を特定し、多数派クラス側のサンプルを削除します。これにより、クラス間の決定境界を不明瞭にしているような多数派クラスのサンプルを削除し、境界をより明確にします。
    • 利点: 決定境界付近のサンプルに焦点を当てることで、クラス間のオーバーラップを減らし、モデルの識別能力を向上させる可能性があります。
    • 課題: 多数派クラスの重要な情報が削除される可能性は依然として存在します。
  3. ENN(Edited Nearest Neighbors):
    • 動作原理: 多数派クラスのサンプルが、そのk個の最近傍のうち過半数を異なるクラスのサンプルに占められている場合、その多数派クラスのサンプルを削除します。これは、ノイズや決定境界付近の多数派サンプルを削除するのに役立ちます。
    • 利点: ノイズの除去に効果的で、決定境界を滑らかにする可能性があります。
    • 課題: 攻撃的なアンダーサンプリングになる可能性があり、情報損失が大きい場合があります。
  4. Cluster Centroids:
    • 動作原理: 多数派クラスをクラスタリングし、各クラスタの重心(centroid)のみを多数派クラスの代表サンプルとして残し、他の多数派クラスのサンプルは削除します。
    • 利点: 多数派クラスのデータ分布の特性をある程度保持しながら、大幅にデータ数を削減できます。
    • 課題: クラスタリングの手法やクラスタ数の選択が性能に影響を与えます。

アンダーサンプリングのメリットとデメリット

メリット

  • 学習時間の短縮: データセット全体のサイズが小さくなるため、モデルの学習にかかる計算時間が短縮されます。
  • メモリ使用量の削減: 大規模なデータセットの場合、メモリの制約を緩和できます。
  • 多数派クラスの過学習防止: 多数派クラスのデータが削減されるため、モデルが多数派クラスに過度に適合し、少数派クラスを無視する傾向を抑制できます。

デメリット

  • 情報損失のリスク: 多数派クラスのデータを削除するため、その中に含まれる重要な情報やパターンが失われる可能性があります。これにより、モデルの全体的な性能が低下することがあります。
  • 不適切なサンプル削除: 無作為に削除されたり、Tomek LinksやENNのようなヒューリスティックに基づいて削除されたりするサンプルが、実際には多数派クラスの重要なサブグループや多様性を表している場合があります。
  • 過度に単純化された決定境界: データが大幅に削減されることで、モデルが学習する決定境界が、実際のデータ分布を正確に反映しないほど単純化されてしまう可能性があります。

アンダーサンプリングの適用における注意点

アンダーサンプリングを適用する際には、いくつかの重要な注意点があります。

  1. 交差検証(Cross-Validation)との併用: アンダーサンプリングは、必ずデータセットをトレーニングセットとテストセットに分割したに、トレーニングセットに対してのみ適用する必要があります。テストセットにアンダーサンプリングを適用してしまうと、情報漏洩(Data Leakage)が発生し、モデルの性能評価が過度に楽観的になってしまいます。
  2. 適切な評価指標の選択: データが不均衡な場合、単純な正解率(Accuracy)は適切な評価指標ではありません。適合率(Precision)、再現率(Recall)、F1スコア、ROC曲線、PR曲線などの指標を用いて、モデルの性能を多角的に評価することが重要です。
  3. 他の手法との組み合わせ: アンダーサンプリング単独ではなく、オーバーサンプリング(少数派クラスを増加)、コストセンシティブ学習(誤分類のコストを重み付け)、アンサンブル学習(複数のモデルを組み合わせる)など、他の手法と組み合わせて使用することで、より良い結果が得られることがあります。特に、オーバーサンプリングとアンダーサンプリングを組み合わせるハイブリッド手法も有効です。

アンダーサンプリングは、不均衡なデータセットにおいて、多数派クラスのデータ数を人工的に削減し、クラス間のバランスを改善するデータ前処理手法です。ランダムアンダーサンプリング、Tomek Links、ENN、Cluster Centroidsなどが主な手法として挙げられます。

学習時間の短縮や多数派クラスの過学習防止といったメリットがある一方で、情報損失のリスクや不適切なサンプル削除といったデメリットも存在します。そのため、交差検証との適切な併用、適切な評価指標の選択、そして他の不均衡データ対策手法との組み合わせなど、慎重な適用が求められます。

関連用語

オーバーサンプリング | 今更聞けないIT用語集New!!
データセット| 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。