BICとは

BICは、統計モデルの複雑さとデータの当てはまりの良さのバランスを評価し、最も適切なモデルを選択するための基準であり、多数のパラメータを持つ複雑すぎるモデルを罰則化(ペナルティ)することで、過学習(Overfitting)を抑制するための指標のことです。

BICの概要とモデル選択における役割

BIC(Bayesian Information Criterion、ベイズ情報量規準)は、統計学および機械学習において、複数の候補モデルの中から最も良いモデルを選択するために使用される評価指標です。

モデル選択においては、以下の2つの相反する要素のバランスを取ることが重要です。

  1. データの当てはまりの良さ: モデルが訓練データにどれだけ適合しているか。
  2. モデルの複雑さ(簡潔性): モデルが持つパラメータの数。

一般に、パラメータを増やしモデルを複雑にするほど、データの当てはまりは良くなりますが、未知のデータに対する予測能力(汎化性能)は低下しやすくなります(過学習)。BICは、この過学習を防ぐために、モデルの当てはまりの良さに加えて、モデルの複雑さに対する罰則項を加えることで、このバランスを定量的に評価します。

主な目的は、情報理論の観点から、訓練データに対して尤度(ゆうど:当てはまりの良さ)が高く、かつ、パラメータ数が少ない(シンプルである)モデルを、客観的な数値で特定することです。

BICの計算式と解釈

BICは、以下の計算式で定義されます。

\text{BIC} = -2 \ln(L) + k \ln(n)

1. 構成要素の解説

記号名称意味
ln(L)最大対数尤度 (Maximum Log-Likelihood)モデルがデータにどれだけ当てはまっているかを示す指標。値が大きいほど当てはまりが良いことを意味する。
kパラメータの数 (Number of Parameters)モデルの複雑さ。独立変数の数や、回帰係数の数など。
ln(n)標本サイズに基づく罰則項(データ数の自然対数)データ数 n の増加に伴い、モデルの複雑さに対するペナルティが大きくなる。

2. BICの解釈

BICは、AIC(Akaike Information Criterion、赤池情報量規準)と同様に、値が小さいほど、そのモデルが優れていると判断されます。

  • 小さいBIC: モデルの当てはまりが良く、かつ複雑さ(パラメータ数 $k$)が適切に抑制されていることを示します。
  • モデルの選択: 複数の候補モデルがある場合、BICの値が最も小さいモデルを最適なモデルとして選択します。

3. AICとの違い(罰則の厳しさ)

BICの最大の特徴は、モデルの複雑さに対する罰則が、標本サイズ $n$ に依存し、AIC($k \times 2$)よりも一般的に厳しくなる点です。

  • AICの罰則項: $2k$
  • BICの罰則項: $k \ln(n)$

データ数 $n$ が 8 よりも大きい場合($\ln(8) \approx 2.08 > 2$)、BICの罰則項はAICの罰則項よりも大きくなります。したがって、BICは、AICと比較してよりシンプルなモデル(パラメータ数が少ないモデル)を選択する傾向があります。この性質から、BICは特に「真のモデル」が存在し、それを発見したいというベイズ的な視点を持つ場合に好まれます。

関連用語

AIモデル | 今更聞けないIT用語集
過学習 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。