とは

有意水準(Significance Level, α)とは、統計的仮説検定において、帰無仮説を棄却するか否かを判断するための基準となる確率を指します。

これは、帰無仮説が実際には真であるにもかかわらず、誤って棄却してしまう確率、すなわち第一種過誤(Type I error)を犯すことを許容する上限値として事前に設定されます。一般的には、0.05(5%)や0.01(1%)が用いられます。

有意水準の基本的な概念

統計的仮説検定は、ある主張(対立仮説)がデータによって支持されるかどうかを、確率的な観点から判断する手法です。有意水準は、その判断の厳しさを示す閾値として機能します。

主な概念は以下の通りです。

  1. 帰無仮説(Null Hypothesis, H0​): 通常、「差がない」「効果がない」「関連がない」といった、現状維持や否定的な主張を置きます。検定では、この帰無仮説が真であると仮定して分析を進めます。
  2. 対立仮説(Alternative Hypothesis, H1​ または HA​): 研究者や分析者がデータを通じて統計的に証明したいと考える主張であり、帰無仮説が否定された場合に採択されます。
  3. p値(p-value): 帰無仮説が真であると仮定した場合に、観測されたデータ(またはそれよりも極端なデータ)が得られる確率を示します。p値が小さいほど、その観測されたデータは帰無仮説の下では起こりにくい事象である、と解釈されます。
  4. 判断基準:
    • p≤α の場合: 観測されたデータは、帰無仮説が真であると仮定するには「稀すぎる」と判断されます。この場合、帰無仮説は棄却され、対立仮説が統計的に有意であると結論付けられます。
    • p>α の場合: 観測されたデータは、帰無仮説が真であると仮定しても「十分に起こりうる」と判断されます。この場合、帰無仮説は棄却されず、対立仮説を採択するほどの統計的根拠はない、と結論付けられます。

第一種過誤と第二種過誤

仮説検定には、結論を下す際に発生する二種類の過誤が存在し、有意水準は特に第一種過誤と密接に関わります。

  1. 第一種過誤(Type I error): 帰無仮説が真であるにもかかわらず、誤って棄却してしまう過誤です。有意水準 α は、この第一種過誤を犯す確率の最大許容値を示します。
    • 例:効果がない新しい薬を、誤って「効果がある」と結論付けてしまう。
  2. 第二種過誤(Type II error): 帰無仮説が偽であるにもかかわらず、誤って棄却しない(採択してしまう)過誤です。この過誤を犯す確率は β で表され、**検出力(Power)**は 1−β で計算されます。
    • 例:効果がある新しい薬を、誤って「効果がない」と結論付けてしまう。

有意水準 α と検出力 1−β の関係: α を厳しく設定する(例えば0.05から0.01に下げる)と、第一種過誤を犯す確率は減少しますが、同時に第二種過誤を犯す確率 β が増加し、結果として検出力 1−β が低下する傾向があります。これは、より確実な証拠が求められるようになるため、真の効果を見落とす可能性が高まるためです。最適な α の設定は、それぞれの過誤がもたらすビジネス上または社会的なコストを考慮して行われるべきです。

有意水準の設定と解釈

有意水準は、通常、以下のような値が設定されます。

  • α=0.05(5%): 最も一般的に使用される値であり、統計的に「有意である」と判断される際の一般的な閾値です。
  • α=0.01(1%): より厳密な判断が求められる場合(例:医薬品の臨床試験、高リスクな製品の品質管理)に用いられます。
  • α=0.10(10%): 社会科学など、より広範な関係性を探索する初期段階で用いられることがあります。

注意点:

  • p値は効果の大きさではない: p値は帰無仮説の下でのデータの稀少性を示すものであり、効果の大きさや重要性を示すものではありません。統計的に有意であっても、その効果が実質的に重要であるとは限りません。効果の大きさは、効果量(Effect Size)などの指標で評価すべきです。
  • 棄却できないことと真実であることは異なる: p>α で帰無仮説が棄却されなかった場合でも、それは帰無仮説が真であることを証明するものではありません。単に、現在のデータでは帰無仮説を棄却するほどの十分な証拠がない、ということを意味します。
  • 多重比較の問題: 複数の仮説検定を同時に行う場合(多重比較)、第一種過誤を犯す確率が累積的に増加する問題があります。これに対処するために、ボンフェローニ補正やFDR(False Discovery Rate)制御などの手法が用いられます。

有意水準の応用分野

有意水準を用いた仮説検定は、多岐にわたる分野で活用されています。

  • 科学研究: 新しい理論や仮説の検証(例:特定の治療法が病気に効果があるか)。
  • ビジネス分析: A/BテストにおけるWebサイトの改善効果の評価、マーケティングキャンペーンの効果測定。
  • 品質管理: 製品の製造プロセスが目標とする品質基準を満たしているかどうかの確認。
  • 医療: 新薬の有効性や副作用の評価、診断方法の精度検証。
  • 社会調査: ある社会現象が特定の要因と関連があるかどうかの検証。

有意水準(Significance Level, α)は、統計的仮説検定において、帰無仮説を棄却するか否かを判断するための基準となる確率であり、帰無仮説が真であるにもかかわらず誤って棄却してしまう第一種過誤を許容する上限値を示します。

p値が有意水準以下であれば帰無仮説は棄却され、対立仮説が統計的に有意であると結論付けられます。有意水準は、第一種過誤と第二種過誤のトレードオフを考慮して設定され、その解釈には、p値が効果の大きさを示すものではないことや、帰無仮説が棄却されなかったからといって真であると証明されるわけではない、といった注意点が存在します。

科学研究からビジネス分析まで、様々な分野で意思決定の客観性を高めるために不可欠な概念です。

関連用語

統計的自然言語処理 | 今更聞けないIT用語集
統計的プロセス制御 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。