Kメディアン法とは

Kメディアン法(K-medoids法 / K-median法)とは、機械学習における教師なし学習アルゴリズムの一種であり、データセットを事前に指定されたK個のクラスターに分割するクラスタリング手法のことです。

K-means法がクラスターの中心を「平均(重心)」で決定するのに対し、Kメディアン法はクラスターの中心を「中央値(メディアン)」、または実際に存在するデータポイントである「メドイド(medoid)」で決定することに特徴があります。これにより、外れ値の影響を受けにくい頑健なクラスタリングが可能になります。

Kメディアン法の基本的な概念

Kメディアン法は、K-means法と同様に、データの特徴に基づいて類似したデータポイントをまとめることを目的としています。しかし、K-means法がクラスターの代表点としてデータの平均値を用いることで、極端な外れ値に引きずられてクラスターの中心が不適切になる可能性があるのに対し、Kメディアン法は中央値や実データであるメドイドを用いることで、この問題を軽減します。

主な概念は以下の通りです。

  1. クラスター(Cluster): Kメディアン法によって分類されるデータのグループです。各クラスターは、互いに似た性質を持つデータポイントの集まりであると想定されます。
  2. メディアン(Median)/ メドイド(Medoid): 各クラスターの中心を表す代表点です。
    • K-median法: 各クラスターに属するデータポイントの中央値を代表点とします。これは、データポイントの各次元における中央値を計算して得られる仮想的な点です。
    • K-medoids法: 各クラスターに属するデータポイントの中から、そのクラスターの最も中心に近い(代表的な)データポイントそのものを代表点とします。この代表点が「メドイド」と呼ばれます。K-medoids法では、中心が必ず実データポイントのいずれかになります。
  3. 距離尺度(Distance Metric): 各データポイントがどのクラスターに属するかを決定するために、データポイントと代表点間の「距離」を計算します。K-means法でよく用いられるユークリッド距離の二乗和ではなく、Kメディアン法ではマンハッタン距離(L1ノルム)やユークリッド距離(L2ノルム)そのものなど、距離の合計を最小化する方向で最適化されることが多いです。特にマンハッタン距離は外れ値の影響を受けにくい特性があります。
    • ユークリッド距離: d(x,y)=∑i=1n​(xi​−yi​)2
    • マンハッタン距離: d(x,y)=∑i=1n​∣xi​−yi​∣
  4. Kの値: ユーザーが事前に指定する必要がある、最終的に分割したいクラスターの数です。

Kメディアン法(K-medoids法)の動作原理

Kメディアン法は、K-means法と類似した反復的な手順でクラスタリングを行います。特にK-medoids法(代表的なアルゴリズムにPAM: Partitioning Around Medoidsがある)の動作原理は以下の通りです。

  1. ステップ1: 初期メドイドの選択: データセットの中からK個のデータポイントをランダムに初期メドイドとして選択します。K-means++に相当するK-medoids++のような賢い初期化手法も存在します。
  2. ステップ2: データポイントの割り当て: データセット内の各データポイントについて、K個のメドイドのうち、最も距離が近いメドイドが属するクラスターにそのデータポイントを割り当てます。
  3. ステップ3: メドイドの更新: 各クラスターに割り当てられたデータポイントの中から、そのクラスター内の他のすべてのデータポイントからの距離の合計が最小になるデータポイントを新しいメドイドとして選択し、更新します。
  4. ステップ4: 収束の判定: ステップ2とステップ3を、メドイドの位置が変化しなくなるまで(または、事前に設定した最大反復回数に達するまで)繰り返します。メドイドが移動しなくなったら、アルゴリズムは収束したとみなされます。

Kメディアン法とK-means法の違い、およびメリット・デメリット

Kメディアン法はK-means法と非常に似ていますが、中心の定義が異なることで、それぞれ異なる特性を持ちます。

特徴K-means法(K平均法)Kメディアン法(K-medoids法)
クラスターの中心平均値(セントロイド)中央値(メディアン)または実データ点(メドイド)
最適化対象クラスター内総平方和(SSE: Sum of Squared Errors)の最小化クラスター内のデータ点と中心間の距離の合計(SAE: Sum of Absolute Errors)の最小化
距離尺度主にユークリッド距離の二乗主にマンハッタン距離、またはユークリッド距離
外れ値への影響比較的受けやすい(平均値が引きずられるため)頑健性が高い(中央値やメドイドは外れ値の影響を受けにくい)
計算コスト比較的低いK-means法より高い(特にメドイドの選択プロセス)
クラスターの形状球状のクラスターを仮定球状の仮定はK-meansほど強くないが、同様に非凸形状には不向き
Kメディアン法とK-means法の違い、およびメリット・デメリット

Kメディアン法のデメリット

  • 計算コストの高さ: K-means法に比べて、メドイド(または中央値)を決定するステップの計算コストが高くなる傾向があります。特にK-medoids法では、各クラスター内の全てのデータポイントの組み合わせを評価して最適なメドイドを見つけるため、大規模なデータセットでは計算に時間がかかることがあります。
  • Kの事前指定: K-means法と同様に、クラスタリングの前にクラスター数Kを事前に指定する必要があります。
  • 初期値への依存: 初期メドイドの選択によって最終的なクラスタリング結果が異なる場合があります。
  • 非数値データへの適用: K-means法と同様に、本質的には数値データに強いため、カテゴリカルデータなどを扱う際には適切な前処理(例:ダミー変数化)が必要になります。

Kメディアン法の応用

Kメディアン法は、K-means法と同様に様々な分野で活用されますが、特に外れ値の存在が懸念されるデータや、クラスターの中心が具体的なデータポイントであることが望ましい場合に有効です。

  • 顧客セグメンテーション: 購買履歴や行動データに外れ値となる顧客(例:極端に高額な購買者やほとんど購入しない顧客)が含まれる場合でも、より安定した顧客グループを識別できます。
  • 異常検知: 通常のパターンから大きく外れたデータポイントを異常として特定する際に、平均値に影響されない中心を用いることで、より正確な異常検知が可能になります。
  • 位置最適化問題: 物流拠点の最適配置など、実際の地理的な地点が中心として選ばれることが望ましい場合に適しています。
  • 画像処理: ピクセル値にノイズが多い画像データなどで、より頑健な色やテクスチャのクラスタリングを行いたい場合。

Kメディアン法(K-medoids法 / K-median法)は、K-means法と同様に、データをK個のクラスターに分割する教師なし学習のクラスタリングアルゴリズムですが、クラスターの中心を「中央値」や「実際のデータポイント(メドイド)」で決定する点が異なります。

これにより、K-means法が外れ値の影響を受けやすいという課題を克服し、より頑健なクラスタリング結果をもたらすことができます。特にK-medoids法では、クラスターの代表点が具体的なデータポイントとして提示されるため、結果の解釈性が高いというメリットもあります。しかし、K-means法に比べて計算コストが高いというデメリットも存在します。

外れ値が存在するデータや、クラスターの中心が実データであることが重要な応用例において、Kメディアン法は非常に有用なツールとなります。

関連用語

k-means法 | 今更聞けないIT用語集
教師なし学習 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。