k-medoids法とは

k-medoids法(k-medoidsほう)は、データクラスタリングの手法の一つであり、与えられたデータセットを、事前に指定された k 個のクラスタに分割するアルゴリズムです。

k-means法と類似していますが、各クラスタの中心として、クラスタ内のデータの平均を用いるk-means法とは異なり、k-medoids法では、クラスタ内の実際のデータ点の中から、そのクラスタの代表となる点(メドイド、medoid)を選択します。この特性により、k-medoids法は外れ値の影響を受けにくく、様々な種類の距離尺度を適用できるという利点を持ちます。

k-medoids法 の基本概念

k-medoids法の目的は、各クラスタ内のデータ点と、そのクラスタのメドイドとの間の非類似度(距離)の合計を最小化することです。メドイドは、クラスタ内の他のすべてのデータ点との距離の合計が最も小さくなるデータ点として定義されます。

k-medoids法 のアルゴリズム(PAM: Partitioning Around Medoids)

k-medoids法の代表的なアルゴリズムとして、PAM(Partitioning Around Medoids)があります。PAMアルゴリズムの基本的な手順は以下の通りです。

  1. 初期化: データセットからランダムに k 個のデータ点を初期メドイドとして選択します。
  2. 割り当て: 各データ点に対して、最も近いメドイドが属するクラスタに割り当てます。距離の計算には、ユークリッド距離だけでなく、マンハッタン距離やその他の任意の距離尺度を用いることができます。
  3. メドイドの更新: 各クラスタにおいて、現在のメドイドを別のデータ点に一時的に置き換えた場合に、クラスタ内の全データ点とその新しい代表点との距離の合計が最小になるようなデータ点を、新たなメドイドとして選択します。このステップは、全ての可能なデータ点を新しいメドイド候補として評価し、最適なものを選びます。
  4. 収束判定: メドイドが更新されなくなった場合、または事前に設定された反復回数に達した場合、アルゴリズムを終了します。そうでなければ、ステップ2に戻ります。

k-medoids法 の特徴と利点

  • 外れ値に強い: クラスタの中心として実際のデータ点を用いるため、k-means法のように外れ値がクラスタの中心を大きく歪める影響を受けにくいです。
  • 多様な距離尺度: データ点間の距離を計算する際に、ユークリッド距離だけでなく、マンハッタン距離や編集距離など、様々な種類の距離尺度を適用できます。これにより、数値データだけでなく、カテゴリカルデータや混合型のデータにも適用可能な場合があります。
  • 解釈性: クラスタの中心が実際のデータ点であるため、クラスタの代表を直接的に理解することができます。

k-medoids法 の欠点

  • 計算コスト: 特に大規模なデータセットの場合、全てのデータ点を新しいメドイド候補として評価するステップが計算コストを増大させる可能性があります。k-means法と比較して計算時間が長くなる傾向があります。
  • 初期メドイドへの依存性: 初期に選択するメドイドによって、最終的なクラスタリング結果が異なる可能性があります。

k-medoids法 の応用例

k-medoids法は、以下のような応用分野で利用されています。

  • 顧客セグメンテーション: 顧客の購買履歴や属性に基づいてグループ分けを行う際に、外れ値の影響を軽減したい場合に利用されます。
  • 医療分野: 患者の症状や検査結果に基づいて疾患のグループ分けを行う際に、非数値データや外れ値を含むデータに対してロバストなクラスタリングが可能です。
  • テキストマイニング: 文書間の類似度に基づいて文書をクラスタリングする際に、様々な類似度尺度を適用できます。
  • 異常検知: 通常のデータから大きく異なる外れ値を特定する前段階として、データ全体の構造を把握するために利用されます。

k-medoids法は、k-means法と同様に非階層的なクラスタリングアルゴリズムですが、クラスタの中心として実際のデータ点(メドイド)を用いることで、外れ値に対するロバスト性や多様な距離尺度の適用可能性といった利点を持っています。一方で、計算コストが高いという側面もあるため、データセットの特性や分析の目的に応じて適切なクラスタリング手法を選択することが重要です。

関連用語

テキストマイニング | 今更聞けないIT用語集
k-means法 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。