Davies-Bouldin指数とは

Davies-Bouldin指数は、クラスタリングアルゴリズムによって生成されたクラスタの分離度(分離の良さ)とコンパクトさ(密度の高さ)を同時に評価するために用いられる、内部評価指標のことです。

Davies-Bouldin指数の概要と評価における役割

Davies-Bouldin指数(DBI)は、クラスタリング結果の妥当性(Validity)を評価するために使用される指標です。この指標は、クラスタリングの品質を客観的に数値化することを目的としており、クラスタリングアルゴリズムの性能比較や、最適なクラスタ数(k)を決定する際の基準として広く利用されます。

DBIは、以下の2つの重要なクラスタ特性に基づいて計算されます。

  1. コンパクトさ(Compactness): 各クラスタ内のデータ点がどれだけ密接に集まっているか(クラスタ内変動の小ささ)。
  2. 分離度(Separation): 異なるクラスタの中心同士がどれだけ離れているか(クラスタ間変動の大きさ)。

この指標は、値が小さいほどクラスタリングの品質が高いことを意味します。値が小さいということは、クラスタが密で(コンパクトさが良い)、かつ互いに遠く離れている(分離度が良い)ことを示します。

主な目的は、クラスタリング結果の品質を単一の数値で定量化し、異なるクラスタリング設定やアルゴリズムの結果を比較するための客観的な基準を提供することです。

Davies-Bouldin指数の計算原理

DBIの計算は、まず各クラスタの類似度(または非類似度)を定義し、その最大値を平均することで行われます。

1. クラスタ内のばらつき(Compactness, si​)

クラスタ Ci​ のコンパクトさ si​ は、クラスタの中心(例:重心 ci​)と、そのクラスタに属するすべての点 xj​ との平均距離として定義されます。

$s_i = \left( \frac{1}{|C_i|} \sum_{x_j \in C_i} ||x_j - c_i||^q \right)^{1/q}

ここで ∣Ci​∣ はクラスタ内のデータ点数、q は距離の累乗パラメータ(通常 q=2 でユークリッド距離)です。si​ が小さいほど、そのクラスタはコンパクトであると評価されます。

2. クラスタ間の距離(Separation, dij​)

2つのクラスタ Ci​ と Cj​ の間の分離度 dij​ は、それぞれのクラスタの中心 ci​ と cj​ との距離として定義されます。

d_{ij} = ||c_i - c_j||^p

p も距離のパラメータ(通常 p=2)です。dij​ が大きいほど、2つのクラスタは互いに遠く離れていると評価されます。

3. クラスタ間の類似度(Dissimilarity, Rij​)

クラスタ Ci​ と Cj​ の間の類似度 Rij​ は、それぞれのクラスタのばらつきの合計を、クラスタ間の距離で割った値として定義されます。

R_{ij} = \frac{s_i + s_j}{d_{ij}}

Rij​ は、クラスタのばらつきが小さく、かつクラスタ間の距離が大きいほど、小さい値になります。つまり、類似度が低い(良いクラスタリング)ことを示します。

4. 最終的なDavies-Bouldin指数の計算

最終的なDBIは、各クラスタ Ci​ について、他のすべてのクラスタとの間で最も類似度が高い値(最も悪い Rij​)を求め、その平均をとることで計算されます。

\text{DBI} = \frac{1}{k} \sum_{i=1}^{k} \underset{i \neq j}{\max} (R_{ij})

ここで k はクラスタ数です。この式は、全体のクラスタリングの品質が、最も類似度が高い(最も重なり合っている、分離が悪い)ペアによって制限されるという考え方に基づいています。

DBIの利用と注意点

利用

  • 最適なクラスタ数の決定: K-means法などのアルゴリズムでクラスタ数 k を変化させながらクラスタリングを実行し、DBIが最小となる k を最適なクラスタ数として選択します。
  • アルゴリズムの比較: 同じデータセットに対して、K-means、階層型クラスタリングなど、異なるアルゴリズムを適用した結果の優劣を比較できます。

注意点

  • 距離尺度の影響: DBIは距離計算に依存するため、データの前処理(スケーリングなど)や選択された距離尺度(ユークリッド距離、マンハッタン距離など)によって結果が大きく影響を受けます。
  • ノイズの多いデータ: ノイズ(外れ値)が多く存在するデータセットでは、クラスタ中心やばらつきの計算が歪められ、指標の信頼性が低下する可能性があります。
  • 球形クラスタへの偏り: 類似度 Rij​ の定義上、球形に近いクラスタに対して有利に働く傾向があり、DBSCANのように任意の形状のクラスタを検出するアルゴリズムの評価には、必ずしも最適ではない場合があります。

関連用語

クラスタリング | 今更聞けないIT用語集
k-meansクラスタリング | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。