Module 0-2 - Section 3: 推測統計の基礎¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 0-2: 心理統計法 I |
| 前提セクション | Section 1(記述統計)、Section 2(確率と確率分布) |
| 想定学習時間 | 3〜4時間 |
導入¶
Section 2では、確率の基本概念、確率分布、そして標本分布・標準誤差・中心極限定理を学んだ。これらは「限られた標本データから母集団の特性を推測する」という推測統計の論理的基盤であった。本セクションでは、この基盤の上に構築される統計的仮説検定(statistical hypothesis testing)の枠組みを扱う。
心理学研究では、「新しい心理療法は従来の療法より効果があるか」「ストレスと睡眠時間には関連があるか」といった問いに対して、データに基づく客観的な判断を下す必要がある。統計的仮説検定は、標本データに基づいて母集団に関する仮説の妥当性を評価するための体系的な手続きであり、心理学を含む経験科学の方法論的中核をなす。
本セクションでは、まず仮説検定の論理構造(帰無仮説・対立仮説・有意水準・p値)を整理し、次に検定に伴う誤りの種類(第一種の過誤・第二種の過誤)と統計的検定力の関係を論じる。さらに、p値だけでは捉えられない効果の大きさを定量化する効果量の概念、そして点推定を補完する信頼区間の考え方を導入する。これらはいずれも、Section 4以降の具体的な検定手法を理解し、適切に運用するための不可欠な基盤となる。
統計的仮説検定の論理¶
仮説検定の基本的な考え方¶
統計的仮説検定(statistical hypothesis testing)は、母集団に関するある仮説を立て、標本データとの整合性を確率的に評価することで、その仮説を棄却するか否かを判断する手続きである。この枠組みは、ロナルド・フィッシャー(Ronald A. Fisher)の有意性検定とイェジ・ネイマン(Jerzy Neyman)=エゴン・ピアソン(Egon Pearson)の仮説検定理論という二つの伝統を源流としており、現代の心理学研究で用いられる検定手続きはこれらの融合形として理解される。
仮説検定の論理を直感的に把握するために、具体的な研究場面を考えよう。ある研究者が、新しい認知行動療法(CBT)プログラムが不安症状を軽減する効果があるかを検証したいとする。従来の療法を受けた患者群(統制群)と新プログラムを受けた患者群(実験群)の不安得点を比較する。ここで、「新プログラムには効果がない(両群に差はない)」という仮説を出発点に置き、データがこの仮説とどの程度矛盾するかを確率的に評価する。これが仮説検定の基本的な論理である。
帰無仮説と対立仮説¶
Key Concept: 帰無仮説(null hypothesis, H₀) 検定において棄却の対象として設定される仮説。通常、「差がない」「効果がない」「関連がない」という形式をとる。帰無仮説が正しいと仮定した上で、観測データがどの程度起こりにくいかを評価する。
Key Concept: 対立仮説(alternative hypothesis, H₁) 帰無仮説に対置される仮説であり、研究者が支持したい主張を表す。帰無仮説が棄却された場合に採択される。「差がある」「効果がある」「関連がある」という形式をとる。
先の例では、帰無仮説と対立仮説は次のように設定される。
- H₀: 新プログラム群と統制群の母平均に差はない(μ₁ = μ₂)
- H₁: 新プログラム群と統制群の母平均に差がある(μ₁ ≠ μ₂)
ここで重要なのは、仮説検定の論理が背理法(proof by contradiction)に類似している点である。帰無仮説が真であると仮定し、その仮定のもとで観測データが生じる確率を計算する。その確率が極めて小さければ、仮定(帰無仮説)自体が誤りであると判断し、帰無仮説を棄却する。ただし、純粋な背理法とは異なり、仮説検定は確率的な推論であるため、誤った結論に至る可能性が常に残る。
対立仮説の設定には両側検定(two-tailed test)と片側検定(one-tailed test)の区別がある。
- 両側検定: H₁: μ₁ ≠ μ₂(差の方向を特定しない)
- 片側検定: H₁: μ₁ > μ₂ または H₁: μ₁ < μ₂(差の方向を特定する)
片側検定は理論的に明確な方向性の予測がある場合に用いられるが、心理学研究では予測の方向が外れた場合に効果を検出できなくなるリスクがあるため、両側検定を用いるのが一般的である。
有意水準¶
Key Concept: 有意水準(significance level, α) 帰無仮説が真であるにもかかわらず、これを誤って棄却してしまう確率の上限として、研究者が事前に設定する基準値。心理学では慣習的にα = .05(5%)が標準的に用いられる。
有意水準αは、「帰無仮説が正しいときに、どの程度の確率まで誤って棄却することを許容するか」を定める閾値である。α = .05とは、帰無仮説が真である場合に、100回検定を行えば約5回は誤って棄却してしまうことを意味する。
α = .05が広く用いられるのはフィッシャーの慣習に由来するが、この値に絶対的な根拠があるわけではない。研究の文脈に応じて、より厳格なα = .01や、探索的研究でのα = .10が採用されることもある。近年では、心理学における再現性危機(replication crisis)を受けて、α = .005への引き下げを提案する議論もある(Benjamin et al., 2018)。
p値¶
Key Concept: p値(p-value) 帰無仮説が真であると仮定したとき、実際に観測された統計量と同等かそれ以上に極端な値が得られる確率。p値が有意水準α以下であれば帰無仮説を棄却する。
p値は仮説検定における判断の根拠となる確率であり、その定義を正確に理解することが極めて重要である。p値は「帰無仮説が正しい確率」ではない。p値はあくまで「帰無仮説が真であるという前提のもとで、観測データと同等かそれ以上に極端な結果が偶然生じる確率」である。
具体例で確認しよう。先の認知行動療法の研究で、両群の平均値差に対する検定統計量を計算し、p = .03が得られたとする。これは「新プログラムに効果がない(H₀が真である)と仮定した場合、今回観測された程度の差(またはそれ以上の差)が偶然生じる確率が3%である」ことを意味する。α = .05のもとでは p = .03 < .05 であるため、帰無仮説は棄却され、「統計的に有意な差がある」と結論づける。
p値に関する誤解は極めて多い。以下の解釈はすべて誤りである。
| 誤った解釈 | なぜ誤りか |
|---|---|
| p値は帰無仮説が真である確率 | p値は帰無仮説を前提とした条件つき確率であり、帰無仮説の事後確率ではない |
| p値は結果が偶然によるものである確率 | 上記と同様の誤解。帰無仮説の真偽そのものの確率ではない |
| 1 - p は対立仮説が真である確率 | p値から対立仮説の確率を導くことはできない |
| p値が小さいほど効果が大きい | p値は標本サイズに依存するため、効果の大きさの指標とはならない |
仮説検定のプロセス¶
仮説検定は以下の手順で実施される。
graph TD
A["1. 仮説の設定"] --> B["2. 有意水準の決定"]
B --> C["3. 検定統計量の算出"]
C --> D["4. p値の計算"]
D --> E{"p値がα以下か"}
E -- "Yes: p ≤ α" --> F["帰無仮説を棄却"]
F --> G["統計的に有意と判断"]
E -- "No: p > α" --> H["帰無仮説を棄却しない"]
H --> I["統計的に有意とはいえない"]
各手順の詳細を整理する。
- 仮説の設定: 研究の問いに基づき、帰無仮説H₀と対立仮説H₁を定式化する
- 有意水準の決定: データ収集前にαを設定する(通常α = .05)
- 検定統計量の算出: 標本データから検定統計量(t値、F値、χ²値など)を計算する。具体的な検定統計量はSection 4で扱う
- p値の計算: 帰無仮説のもとでの標本分布から、検定統計量に対応するp値を算出する
- 判断: p ≤ αならH₀を棄却、p > αならH₀を棄却しない
ここで「帰無仮説を棄却しない」は「帰無仮説が正しいと証明された」ことを意味しない。帰無仮説を棄却するだけの十分な証拠が得られなかったことを意味するに過ぎない。これは「帰無仮説を受容する」(accept)とは区別される。「差がない」と結論づけるには、等価性検定(equivalence testing)などの別の手続きが必要となる。
検定における誤りの種類¶
第一種の過誤と第二種の過誤¶
仮説検定は確率的な推論であるため、常に誤った結論を導く可能性がある。この誤りには二つの種類がある。
Key Concept: 第一種の過誤(Type I error) 帰無仮説が真であるにもかかわらず、これを誤って棄却してしまう誤り。その確率の上限はαによって制御される。「偽陽性」(false positive)とも呼ばれる。
Key Concept: 第二種の過誤(Type II error) 帰無仮説が偽(すなわち対立仮説が真)であるにもかかわらず、帰無仮説を棄却できない誤り。その確率はβで表される。「偽陰性」(false negative)とも呼ばれる。
これら二つの過誤を、研究者の判断と真実の状態の組み合わせとして整理すると以下の表になる。
| 真実: H₀が真 | 真実: H₁が真 | |
|---|---|---|
| 判断: H₀を棄却 | 第一種の過誤(α) | 正しい判断(検定力 1-β) |
| 判断: H₀を棄却しない | 正しい判断(1-α) | 第二種の過誤(β) |
日常的な対比で理解するならば、火災報知器の例がわかりやすい。
- 第一種の過誤: 火事が起きていないのに報知器が鳴る(誤報)
- 第二種の過誤: 火事が起きているのに報知器が鳴らない(検出漏れ)
報知器の感度を上げれば誤報(第一種の過誤)が増え、感度を下げれば検出漏れ(第二種の過誤)が増える。すなわち、αを小さくすればβは大きくなり、αを大きくすればβは小さくなるというトレードオフの関係が存在する。
αとβの関係¶
αとβの関係は以下のように整理できる。
- αを小さくする(例: .05 → .01)→ 棄却基準が厳格になる → 真の効果があっても検出しにくくなる → βが増大
- αを大きくする(例: .05 → .10)→ 棄却基準が緩くなる → 偽の効果を検出するリスクが増す → βが減少
研究デザインにおいては、αとβの両方を適切な水準に制御することが求められる。αは慣習的に.05に設定されることが多いが、βの制御は標本サイズの設計を通じて行われる。
統計的検定力¶
Key Concept: 統計的検定力(statistical power) 対立仮説が真であるとき(すなわち実際に効果が存在するとき)に、帰無仮説を正しく棄却できる確率。1 - βで定義される。Cohenの提案では、検定力 .80(80%)が望ましい水準とされる。
検定力は「実在する効果を検出できる能力」を表す指標であり、研究の質を評価する上で極めて重要である。検定力が低い研究は、実際に効果が存在しても統計的に有意な結果が得られにくく、研究資源の無駄遣いとなりうる。
検定力を決定する要因¶
検定力は以下の4つの要因によって規定される。
- 有意水準α: αを大きくすれば検定力は上昇する。ただし、第一種の過誤のリスクも増す
- 標本サイズn: 標本サイズが大きいほど標準誤差が小さくなり、検定力は上昇する。これは研究者が最も直接的に制御できる要因である
- 効果量: 母集団における真の効果が大きいほど検定力は上昇する。ただし、効果量は研究対象の性質に依存するため、研究者が操作することはできない
- 検定の種類: 片側検定は両側検定より検定力が高い。またパラメトリック検定はノンパラメトリック検定より一般に検定力が高い
これらの関係から、研究計画段階での検定力分析(power analysis)の重要性が導かれる。検定力分析は、α、期待される効果量、望ましい検定力(通常 .80)を指定し、必要な標本サイズを事前に算出する手続きである。ヤコブ・コーエン(Jacob Cohen, 1988)はこの手法を体系化し、心理学研究における標本サイズ計画の標準的手法として定着させた。
検定力が不足する場合の問題¶
検定力が低い研究には以下の問題が生じる。
- 真の効果を検出できない: 実際に効果が存在しても「有意でない」と結論づけてしまう
- 効果量の過大推定: 検定力の低い研究で有意になった結果は、効果量が過大に推定される傾向がある(winner's curse)
- 再現性の低下: 検定力の低い研究で得られた有意な結果は、追試で再現されにくい
効果量¶
Key Concept: 効果量(effect size) 変数間の関連の強さや群間差の大きさを、標本サイズに依存しない形で定量化した指標。p値が「効果の有無」を判定するのに対し、効果量は「効果の大きさ」を示す。
p値は標本サイズに強く依存する。標本サイズが十分に大きければ、実質的に無意味な微小な差であっても統計的に有意となりうる。逆に、標本サイズが小さければ、実質的に重要な差があっても統計的に有意とならない場合がある。効果量はこの問題を補完する指標であり、APA(アメリカ心理学会)は研究論文においてp値とともに効果量を報告することを推奨している(APA, 2020)。
効果量の分類¶
効果量の指標は大きく二つのファミリーに分類される。
1. dファミリー(標準化差): 群間差を標準偏差単位で表現する
2. rファミリー(分散説明率): 独立変数が従属変数の分散をどの程度説明するかを比率で表現する
Cohen's d¶
Cohen's d は最も広く用いられる効果量指標の一つであり、二群の平均値差を合併標準偏差(pooled standard deviation)で割ることで算出される。
d = (M₁ - M₂) / SD_pooled
ここで、M₁, M₂は各群の平均値、SD_pooledは合併標準偏差である。
コーエンは心理学研究における効果量の解釈基準として以下の目安を提案した(Cohen, 1988)。
| Cohen's d | 解釈 | 二つの分布の重なり |
|---|---|---|
| 0.2 | 小(small) | 約85%が重複 |
| 0.5 | 中(medium) | 約67%が重複 |
| 0.8 | 大(large) | 約53%が重複 |
d = 0.5は、一方の群の平均が他方の群の分布の上位31%に位置することを意味する。この目安は広く使用されているが、コーエン自身が注意したように、効果の大小の判断は研究領域や文脈に依存するものであり、機械的な適用は避けるべきである。
相関係数 r¶
ピアソンの積率相関係数rは、それ自体が効果量の指標として機能する。rは-1から+1の範囲をとり、二変数間の直線的関連の強さと方向を表す。コーエンの目安は以下の通りである。
| r | 解釈 |
|---|---|
| .10 | 小(small) |
| .30 | 中(medium) |
| .50 | 大(large) |
r²(決定係数)は、一方の変数によって説明される他方の変数の分散の割合を表す。例えば r = .30 ならば r² = .09 であり、分散の9%が説明されることを意味する。
イータ二乗(η²)¶
イータ二乗(eta squared, η²)は、分散分析(ANOVA)における効果量指標であり、独立変数によって説明される従属変数の全分散に対する割合を表す。
η² = SS_effect / SS_total
ここで、SS_effectは要因による平方和、SS_totalは全体の平方和である。コーエンの目安は以下の通りである。
| η² | 解釈 |
|---|---|
| .01 | 小(small) |
| .06 | 中(medium) |
| .14 | 大(large) |
η²は解釈が直感的である(「従属変数の分散の何%が説明されるか」)一方、集団数や標本サイズに依存して過大推定される傾向がある。この問題を修正した指標として偏イータ二乗(partial η²)やオメガ二乗(ω²)が用いられることもある。
効果量指標の使い分け¶
| 状況 | 推奨される効果量 |
|---|---|
| 2群の平均値比較(t検定) | Cohen's d |
| 2変数の相関 | r |
| 3群以上の比較(ANOVA) | η²(またはω²) |
| 回帰分析 | R²(決定係数) |
信頼区間¶
Key Concept: 信頼区間(confidence interval, CI) 母集団パラメータが含まれると推定される値の範囲。95%信頼区間は、同一の手続きで繰り返し標本を抽出し信頼区間を構成した場合、その約95%が真の母数を含むことを意味する。
点推定と区間推定¶
母集団パラメータの推定には二つのアプローチがある。
- 点推定(point estimation): 母数を一つの値で推定する(例: 標本平均 M = 72.5)
- 区間推定(interval estimation): 母数が含まれる範囲を確率的に推定する(例: 95% CI [68.3, 76.7])
点推定は最も確からしい値を示すが、その推定値がどの程度の精度を持つかの情報を含まない。信頼区間は推定の不確実性を明示的に示す点で、点推定を補完する。
信頼区間の構成¶
母平均μに対する95%信頼区間は、一般に以下の形式で構成される。
95% CI = M ± 1.96 × SE
ここで、Mは標本平均、SEは標準誤差(→ Module 0-2, Section 2「確率と確率分布」参照)である。標本サイズが小さい場合はz値(1.96)の代わりにt分布の臨界値を用いる(t分布についてはSection 4で詳述する)。
信頼区間の正しい解釈¶
信頼区間の解釈は頻度主義統計の枠組みに基づくものであり、直感的な理解と厳密な定義との間にしばしば乖離が生じる。
正しい解釈: 同一の母集団から同じ手続きで標本を繰り返し抽出し、そのたびに95%信頼区間を計算すると、それらの信頼区間のうち約95%が真の母数を含む。
誤った解釈: 「この特定の信頼区間に真の母数が含まれる確率が95%である」——これは厳密には正しくない。頻度主義の枠組みでは、真の母数は固定された値であり、確率変数ではない。ある特定の信頼区間について、真の母数を含むか含まないかは確定しており(含むか含まないかのどちらかであり)、確率は0%または100%のいずれかである。95%という確率は、信頼区間を構成する「手続き」に対して付与されるものである。
信頼区間とp値の関係¶
95%信頼区間と有意水準α = .05での仮説検定には対応関係がある。
- 帰無仮説で想定される値(例えばμ₀ = 0)が95%信頼区間に含まれない → p < .05(有意)
- 帰無仮説で想定される値が95%信頼区間に含まれる → p ≥ .05(有意でない)
この対応関係から、信頼区間は仮説検定の結果を含みつつ、効果の大きさや推定の精度に関する追加情報を提供する。多くの統計学者が、p値単独での報告よりも信頼区間の報告を推奨する理由はここにある。
信頼区間の幅を決定する要因¶
信頼区間の幅は以下の要因に依存する。
| 要因 | 信頼区間への影響 |
|---|---|
| 標本サイズ n の増加 | 幅が狭くなる(推定精度が向上) |
| データの分散の増大 | 幅が広くなる(推定の不確実性が増大) |
| 信頼水準の引き上げ(95% → 99%) | 幅が広くなる(より広い範囲を確保) |
まとめ¶
- 統計的仮説検定は、帰無仮説(H₀)を設定し、標本データとの整合性をp値によって評価する手続きである
- p値は「H₀が真であると仮定した場合に、観測データと同等かそれ以上に極端な結果が偶然生じる確率」であり、H₀が真である確率ではない
- 有意水準αは第一種の過誤の確率の上限であり、心理学では慣習的にα = .05が用いられる
- 第一種の過誤(偽陽性)と第二種の過誤(偽陰性)にはトレードオフの関係がある
- 統計的検定力(1 - β)は実在する効果を検出する確率であり、標本サイズ、効果量、有意水準、検定の種類によって規定される
- 効果量は効果の大きさを標本サイズに依存しない形で定量化する指標であり、p値を補完する
- 信頼区間は母数の推定に不確実性の情報を付加し、仮説検定の結果と効果量の情報を統合的に提供する
- Section 4では、これらの概念を前提として、t検定やカイ二乗検定など具体的な検定手法を学ぶ
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 帰無仮説 | null hypothesis (H₀) | 検定において棄却の対象として設定される仮説。通常「差がない」「効果がない」という形式をとる |
| 対立仮説 | alternative hypothesis (H₁) | 帰無仮説に対置される仮説。研究者が支持したい主張を表す |
| 有意水準 | significance level (α) | 帰無仮説が真であるときにこれを誤って棄却する確率の上限。慣習的にα = .05 |
| p値 | p-value | H₀が真であると仮定した場合に、観測データと同等以上に極端な結果が生じる確率 |
| 第一種の過誤 | Type I error | H₀が真であるのに誤って棄却する誤り(偽陽性)。確率はα |
| 第二種の過誤 | Type II error | H₁が真であるのにH₀を棄却できない誤り(偽陰性)。確率はβ |
| 統計的検定力 | statistical power | H₁が真であるときにH₀を正しく棄却できる確率。1 - β |
| 効果量 | effect size | 効果の大きさを標本サイズに依存せず定量化した指標 |
| 信頼区間 | confidence interval (CI) | 同一手続きの反復で構成される区間のうち、一定割合が母数を含むよう設計された区間 |
| 両側検定 | two-tailed test | 対立仮説が差の方向を特定しない検定 |
| 片側検定 | one-tailed test | 対立仮説が差の方向を特定する検定 |
| 検定力分析 | power analysis | 必要な標本サイズを事前に算出するための分析 |
| Cohen's d | Cohen's d | 二群の平均値差を合併標準偏差で割った標準化効果量指標 |
| イータ二乗 | eta squared (η²) | 分散分析における効果量指標。独立変数が説明する分散の割合 |
| 点推定 | point estimation | 母数を一つの値で推定する方法 |
| 区間推定 | interval estimation | 母数が含まれる範囲を確率的に推定する方法 |
確認問題¶
Q1: p値の定義を正確に述べよ。また、「p = .03」という結果を、帰無仮説と有意水準の概念を用いて解釈せよ。
A1: p値とは、帰無仮説が真であると仮定した場合に、実際に観測されたデータと同等かそれ以上に極端な結果が偶然得られる確率である。p = .03は、帰無仮説のもとで観測された結果(またはそれ以上に極端な結果)が偶然生じる確率が3%であることを意味する。有意水準α = .05を採用する場合、p = .03 < .05であるから帰無仮説は棄却され、結果は統計的に有意と判断される。
Q2: 第一種の過誤と第二種の過誤の定義をそれぞれ述べた上で、両者のトレードオフの関係を説明せよ。
A2: 第一種の過誤(Type I error)は、帰無仮説が真であるにもかかわらず誤って棄却する誤りであり、その確率はαで制御される。第二種の過誤(Type II error)は、対立仮説が真であるにもかかわらず帰無仮説を棄却できない誤りであり、その確率はβで表される。両者にはトレードオフの関係がある。αを小さくする(棄却基準を厳格にする)と第一種の過誤は減少するが、真の効果を検出しにくくなるためβが増大する。逆にαを大きくすればβは減少するが、第一種の過誤のリスクが増す。
Q3: ある研究でp < .001という結果が得られた。この結果から「効果が非常に大きい」と結論づけることは妥当か。理由とともに論ぜよ。
A3: 妥当ではない。p値は効果の大きさの指標ではなく、帰無仮説のもとでのデータの希少性を示す確率である。p値は標本サイズに強く依存し、標本サイズが十分に大きければ、実質的に無視できるほど小さな効果であっても極めて小さなp値が得られる。効果の大きさを評価するには、Cohen's dやη²などの効果量指標を参照する必要がある。
Q4: 統計的検定力を規定する4つの要因を挙げ、研究者が検定力を高めるために最も直接的に制御できる要因はどれか、理由とともに説明せよ。
A4: 検定力を規定する4つの要因は、(1) 有意水準α、(2) 標本サイズn、(3) 効果量、(4) 検定の種類である。研究者が最も直接的に制御できるのは標本サイズnである。有意水準は慣習的にα = .05が固定されることが多く、効果量は研究対象の性質に依存するため研究者が操作できず、検定の種類はデータの性質や研究デザインによって規定される。標本サイズは研究計画段階で研究者が決定できるため、検定力分析を用いて必要な標本サイズを事前に算出することが推奨される。
Q5: 95%信頼区間の正しい解釈を述べよ。「この信頼区間に母平均が含まれる確率は95%である」という解釈が厳密には誤りである理由を、頻度主義統計の枠組みから説明せよ。
A5: 95%信頼区間の正しい解釈は、同一の母集団から同じ手続きで標本を繰り返し抽出し、そのたびに95%信頼区間を構成すると、それらの信頼区間のうち約95%が真の母数を含む、というものである。「この特定の信頼区間に母平均が含まれる確率は95%である」は頻度主義の枠組みでは厳密に誤りである。頻度主義統計では、母平均は固定された未知の定数であり確率変数ではないため、特定の信頼区間が母数を含むか否かは確定している(0%か100%かのいずれかである)。95%という確率は、個々の信頼区間ではなく、信頼区間を構成する手続き全体に対して付与されるものである。