マルチコリニアリティとは
マルチコリニアリティ(Multicollinearity)とは、重回帰分析などの統計モデルにおいて、複数の説明変数(独立変数)間に高い線形相関が存在する状態のこと。
マルチコリニアリティ(Multicollinearity)、日本語では多重共線性(たじゅうきょうせんせい)とも呼ばれます。これは、重回帰分析などの線形モデルにおいて、二つ以上の説明変数(独立変数)が互いに高い線形相関を持つ状態を指します。このような状況下では、各説明変数が目的変数(従属変数)に与える独立した影響を正確に推定することが困難になり、モデルの解釈性や安定性に悪影響を及ぼします。
マルチコリニアリティ の基本的な概念
重回帰分析は、複数の説明変数を用いて目的変数の変動を説明する統計手法です。各説明変数の目的変数に対する影響度合いは、回帰係数(Regression Coefficient)として推定されます。理想的には、各説明変数が互いに独立している(相関がない)状態で分析が行われることが望ましいです。
しかし、実世界のデータでは、複数の説明変数間に何らかの関連性があることが少なくありません。例えば、住宅価格を予測するモデルにおいて、「住宅の広さ」と「部屋の数」はしばしば正の相関を持つでしょう。もしこの二つの変数がモデルに同時に含まれ、かつそれらが非常に高い相関を持つ場合、モデルはどちらの変数が住宅価格に独立して影響を与えているのかを区別することが難しくなります。この状態がマルチコリニアリティです。
線形回帰モデルの基本式:
ここで、y は目的変数、x1,…,xp は説明変数、β0,…,βp は回帰係数、ϵ は誤差項です。 マルチコリニアリティは、これらの説明変数 xi 間で高い相関がある場合に発生します。
マルチコリニアリティ がもたらす問題
マルチコリニアリティは、回帰分析の結果に以下のような悪影響を及ぼします。
- 回帰係数の推定値が不安定になる: 説明変数間の相関が高い場合、ごくわずかなデータ変動やモデルの再推定によって、回帰係数の符号が反転したり、推定値が大きく変動したりすることがあります。これにより、特定の変数が増加したときに目的変数がどう変化するか、といった因果関係の解釈が困難になります。
- 回帰係数の標準誤差が増大する: 回帰係数の推定値の精度は、その標準誤差によって評価されます。マルチコリニアリティが存在すると、標準誤差が不自然に大きくなり、回帰係数が統計的に有意であると判断されにくくなります(p値が大きくなる)。これは、各変数の目的変数に対する寄与を「個別に」評価する能力が低下するためです。 回帰係数 βj の分散(標準誤差の二乗)は、一般的に以下のように表されます。
- ここで、σ2 は誤差項の分散、Rj2 は、xj を他の全ての xk で回帰したときの決定係数です。Rj2 が1に近づく(つまり、xj が他の変数と非常に高い相関を持つ)と、分母の (1−Rj2) が0に近づき、Var(β^j) が無限に大きくなる傾向にあります。
- モデルの解釈が困難になる: どの説明変数が実際に目的変数に影響を与えているのか、それぞれの変数がどの程度の独立した寄与をしているのかが不明瞭になります。これにより、モデルからビジネス上の示唆を得ることが難しくなります。
- 予測性能への影響は限定的: 意外に思われるかもしれませんが、マルチコリニアリティはモデルの予測性能そのものには、必ずしも大きな悪影響を与えない場合があります。これは、回帰係数の推定は不安定になるものの、目的変数の変動を説明するモデル全体の予測能力は維持されることがあるためです。ただし、外挿(Extrapolation)、つまり訓練データの範囲外の新しいデータに対する予測は不安定になるリスクがあります。
マルチコリニアリティ の検出方法
マルチコリニアリティの有無や深刻度を判断するには、以下の方法が用いられます。
- 相関係数行列の確認: 説明変数間の相関係数を算出し、絶対値で0.8や0.9を超えるような高い相関があるペアがないかを確認します。
- VIF(Variance Inflation Factor: 分散拡大要因): 各説明変数に対して計算される指標で、その変数が他の説明変数によってどれだけ説明されるかを示します。VIF値が大きいほど、その変数にマルチコリニアリティの問題が存在する可能性が高いことを示します。一般的に、VIFが5または10を超えると、マルチコリニアリティが深刻であると判断されます。
- ここで、Rj2 は、説明変数 xj を他の全ての残りの説明変数で回帰したときの決定係数です。
マルチコリニアリティ への対策
マルチコリニアリティが検出された場合、モデルの健全性と解釈性を改善するために、以下のような対策が検討されます。
- 相関の高い変数の一方または複数を除外する: 最も単純な方法です。ドメイン知識に基づいて、目的変数に対してより重要であると考えられる変数や、より解釈しやすい変数を選択し、相関の高い他の変数をモデルから除外します。
- 変数を統合する: 相関の高い複数の変数を結合して、新しい単一の変数を作成します。例えば、「広さ」と「部屋の数」を組み合わせて「単位面積あたりの部屋数」のような変数を作成する。
- 主成分分析(Principal Component Analysis, PCA)などの次元削減手法を使用する: 相関のある変数を、互いに直交する(相関がない)新しい変数(主成分)に変換します。これにより、情報の損失を最小限に抑えつつ、次元を削減し、マルチコリニアリティを解消できます。
- 正則化手法(Regularization Methods)の適用: リッジ回帰(Ridge Regression)やラッソ回帰(Lasso Regression)などの正則化手法は、回帰係数にペナルティを課すことで、その推定値を安定させ、マルチコリニアリティの影響を軽減する効果があります。
- リッジ回帰のコスト関数:
ここで、λ は正則化の強さを制御するハイパーパラメータです。二乗ノルム(L2ノルム)ペナルティが回帰係数の分散を抑制します。
マルチコリニアリティは、重回帰分析などの統計モデルにおいて、複数の説明変数間に高い線形相関が存在する状態であり、回帰係数の推定値を不安定にしたり、標準誤差を増大させたりすることで、モデルの解釈性を損なう問題です。相関係数行列やVIF値の確認によって検出され、変数の除外、統合、次元削減手法の適用、あるいは正則化手法の利用などによって対策が講じられます。マルチコリニアリティを適切に管理することは、回帰モデルの頑健性と信頼性を確保し、ビジネス上の意思決定に役立つ有効な知見を得るために不可欠です。
関連用語
お問い合わせ
システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。
APPSWINGBYの
ソリューション
APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。
システム開発
既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。
iOS/Androidアプリ開発
既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。
リファクタリング
他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。

ご相談・お問い合わせはこちら
APPSWINGBYのミッションは、アプリでビジネスを加速し、
お客様とともにビジネスの成功と未来を形作ること。
私達は、ITテクノロジーを活用し、様々なサービスを提供することで、
より良い社会創りに貢献していきます。
T関する疑問等、小さなことでも遠慮なくお問合せください。3営業日以内にご返答致します。

ご相談・お問合せはこちら
APPSWINGBYのミッションは、アプリでビジネスを加速し、お客様とともにビジネスの成功と未来を形作ること。
私達は、ITテクノロジーを活用し、様々なサービスを提供することで、より良い社会創りに貢献していきます。
IT関する疑問等、小さなことでも遠慮なくお問合せください。3営業日以内にご返答させて頂きます。