コンテンツにスキップ

Module 0-2 - Section 5: 統計的推論の注意点

セクション情報

項目 内容
モジュール Module 0-2: 心理統計法 I
前提セクション Section 3, Section 4
想定学習時間 2.5時間

導入

統計的仮説検定は心理学研究の中核的方法論であるが、その解釈と運用には多くの落とし穴が存在する。p値の誤解、多重比較によるエラー率の膨張、効果量の軽視、そして問題のある研究実践(QRPs)は、研究結果の信頼性を根底から揺るがす。本セクションでは、Section 3で学んだ仮説検定と効果量の知識を基盤として、統計的推論を行う際に注意すべき事項を体系的に扱う。特に、2016年のアメリカ統計学会(ASA)による公式声明を軸に、p値をめぐる議論の現在地を確認し、心理学における再現性問題の統計的側面を検討する。


p値の正しい解釈と典型的誤解

p値の定義の再確認

Section 3で定義したとおり、p値は「帰無仮説(H₀)が真であると仮定した場合に、観測データと同等以上に極端な結果が得られる確率」である。この定義は一見単純だが、正確な理解は容易ではない。p値はデータについての確率的記述であり、仮説の確率を述べるものではない。

よくある6つの誤解

p値に関する誤解は研究者の間でも広く残存している。Greenland et al. (2016) は統計的検定に関する25の誤解を整理しており、以下はその中でも特に重要な6つである。

誤解1:「p = .03 は、帰無仮説が正しい確率が3%であることを意味する」

これは最も広く見られる誤解である。p値は「H₀が真であるという条件下でのデータの確率」であり、「データが得られたという条件下でのH₀の確率」ではない。P(Data | H₀) と P(H₀ | Data) は異なる。後者を求めるにはベイズの定理と事前確率が必要となる。

誤解2:「p < .05 なら、結果は実質的に重要である」

統計的有意性と実質的重要性(practical significance)は別の概念である。標本サイズが十分に大きければ、実質的にはほとんど意味のない微小な差であっても統計的に有意となりうる。たとえば n = 100,000 の調査で2群間の平均差が0.01点であっても、p < .001 となる場合がある。

誤解3:「p > .05 は帰無仮説が正しいことの証拠である」

有意でない結果は「H₀を棄却できなかった」というだけであり、H₀が正しいことの積極的証拠にはならない。「差がない」と「差があると言えない」は論理的に異なる。帰無仮説を支持する証拠を得るためには、等価性検定(equivalence testing)やベイズファクターなどの別のアプローチが必要である。

誤解4:「有意水準.05で検定して有意だったので、誤りの確率は5%以下である」

有意水準αはType I エラーの長期的確率(long-run error rate)を制御するものであり、個別の検定結果の誤り確率を表すものではない。ある特定の有意な結果が誤りである確率は、研究の事前確率(base rate)に依存する。

誤解5:「2つの研究で、一方がp < .05で他方がp > .05 なら、両者の結果は矛盾する」

p = .04 と p = .06 の差は統計的に意味のある差ではないことが多い。2つの結果が本当に異なるかを判断するには、効果量の信頼区間の重なりを検討するか、両研究の差の検定を行う必要がある。Gelman & Stern (2006) はこの問題を「有意と非有意の差は、それ自体が統計的に有意であるとは限らない」と明快に表現している。

誤解6:「p値が小さいほど効果が大きい」

p値の大きさは効果量と標本サイズの両方に依存する。小さなp値は大きな効果量を反映している場合もあるが、単に標本サイズが大きいだけである場合もある。効果の大きさはCohen's dやη²などの効果量指標で評価すべきである。

graph LR
    subgraph "p値が小さくなる要因"
        A["効果量が大きい"] --> P["p値の低下"]
        B["標本サイズが大きい"] --> P
        C["分散が小さい"] --> P
    end

    subgraph "p値が伝えないこと"
        P -.->|"伝えない"| D["仮説が正しい確率"]
        P -.->|"伝えない"| E["効果の実質的重要性"]
        P -.->|"伝えない"| F["再現される確率"]
    end

ASA声明(2016年)の6原則

2016年、アメリカ統計学会(ASA)はp値に関する初の公式声明を発表した(Wasserstein & Lazar, 2016)。統計学の専門学会がp値の使用について公式見解を示すこと自体が異例であり、問題の深刻さを反映している。声明は以下の6原則を提示した。

  1. p値はデータが特定の統計モデルとどの程度矛盾しているかを示すことができる
  2. p値は研究対象の仮説が真である確率や、データが偶然のみで生じた確率を測定するものではない
  3. 科学的結論やビジネス・政策上の決定は、p値が特定の閾値を超えたかどうかのみに基づくべきではない
  4. 適切な推論には完全な報告と透明性が必要である
  5. p値や統計的有意性は、効果の大きさや結果の重要性を測定するものではない
  6. p値単独では、モデルや仮説に関する十分な証拠を提供しない

この声明は、p値を完全に廃止することを主張するものではなく、p値を機械的に適用する慣行への警鐘である。


多重比較問題

問題の本質

Key Concept: 多重比較問題(multiple comparisons problem) 同一のデータセットに対して複数の統計的検定を実施すると、少なくとも1つの検定でType I エラー(偽陽性)が生じる確率が個々の検定の有意水準を超えて膨張する問題。

1回の検定でα = .05 を設定した場合、Type I エラーの確率は5%である。しかし、独立な検定を k 回行うと、少なくとも1つのType I エラーが生じる確率は次のように増加する。

FWER = 1 - (1 - α)^k

具体的な計算例を示す。

検定回数 (k) FWER(α = .05)
1 .050
5 .226
10 .401
20 .642
50 .923
100 .994

20回の独立なt検定を実施すれば、すべての帰無仮説が真であっても、約64%の確率で少なくとも1つの「有意な」結果が得られる。これは心理学でしばしば行われる「複数の従属変数それぞれについてt検定を行う」といった分析で容易に生じうる。

Key Concept: ファミリーワイズ・エラー率(familywise error rate; FWER) 一群(ファミリー)の検定全体を通じて、少なくとも1つのType I エラーを犯す確率。多重比較補正はこのFWERを所定の水準(通常α = .05)以下に制御することを目的とする。

補正方法

Bonferroni補正

Key Concept: Bonferroni補正(Bonferroni correction) 最も単純で保守的な多重比較補正法。k 回の検定を行う場合、各検定の有意水準を α/k に設定することでFWERをα以下に制御する。

たとえば5回の検定を行う場合、各検定の有意水準は .05/5 = .01 となる。この方法はBonferroniの不等式に基づいており、検定間の独立性を仮定しなくても成立する点が利点である。

ただし、Bonferroni補正は保守的すぎる場合がある。検定回数が多くなると各検定の有意水準が極端に小さくなり、実際に存在する効果も検出できなくなる(統計的検定力の低下)。たとえば20回の検定では .05/20 = .0025 が各検定の基準となり、真の効果を見逃すリスク(Type II エラー)が増大する。

その他の補正方法

Bonferroni補正の保守性を改善する方法として、以下が広く用いられる。

  • Holm法(Holm-Bonferroni法): p値を小さい順に並べ、段階的に基準を緩和する。Bonferroni補正と同等以上の検定力を持ち、常により優れた方法とされる。
  • Benjamini-Hochberg法(FDR制御): FWERではなく偽発見率(false discovery rate; FDR)、すなわち「有意と判定した結果のうち誤りである割合の期待値」を制御する。多数の検定を行う場合(ゲノム解析など)に有用である。
  • Tukey HSD法: 分散分析後のすべてのペアワイズ比較に特化した方法で、心理学の実験研究でよく使用される。
graph TD
    A["複数の検定を実施"] --> B{"補正は必要か?"}
    B -->|"はい"| C{"検定の目的は?"}
    B -->|"事前に計画された少数の比較"| D["補正不要の場合もある"]
    C -->|"FWER制御"| E["Bonferroni / Holm法"]
    C -->|"FDR制御"| F["Benjamini-Hochberg法"]
    C -->|"ANOVAの事後比較"| G["Tukey HSD等"]
    E --> H["保守的: Type II エラー増大の注意"]
    F --> I["より検定力が高い: 探索的研究に適する"]

効果量の重要性

p値だけでは不十分な理由

Section 3で導入した効果量の概念を、ここではp値との関係でさらに深める。p値が不十分である理由は明確である。p値は「効果がゼロでない」という二値的判断の材料にはなるが、「効果がどの程度大きいか」という量的情報を提供しない。

次の2つの架空の研究を比較する。

研究A 研究B
標本サイズ (n) 20 2,000
平均差 8.0点 0.8点
Cohen's d 0.80 0.08
p値 .032 .018

研究Bの方がp値は小さいが、効果量は研究Aの1/10である。p値のみに基づく判断では研究Bの方が「より強い証拠」であるかのように見えるが、実質的に意味のある効果を示しているのは研究Aである。

報告基準の変化

心理学における効果量報告の重要性は制度的にも認識されるようになった。主な動向を整理する。

  • APA Publication Manual 第6版(2010)以降: 効果量の報告を強く推奨。信頼区間の併記も求められるようになった。
  • 主要ジャーナルのガイドライン: Psychological Science をはじめとする主要誌が効果量の報告を義務化あるいは強く推奨している。
  • CONSORT声明・STROBE声明: 臨床試験や観察研究の報告ガイドラインでも、p値のみでなく効果量と信頼区間の報告が求められている。

効果量を報告することにより、(1) 結果の実質的意味を評価でき、(2) メタアナリシスへの統合が可能となり、(3) 将来の研究のサンプルサイズ設計に活用できる。


再現性問題の統計的側面

p-hackingと問題のある研究実践

(→ Module 0-1, Section 4「心理学研究法の基礎」参照。ここでは再現性の危機の統計的メカニズムに焦点を当てる。)

Key Concept: 問題のある研究実践(questionable research practices; QRPs) 偽陽性率を膨張させる一連の研究行動の総称。データの選択的報告、分析手法の事後的変更、外れ値の恣意的除外などが含まれる。厳密には不正(fabrication, falsification)ではないが、科学的知見の信頼性を大きく損なう。

QRPsの中でも特に問題とされるのが以下の実践である。

  • p-hacking: 有意な結果が得られるまでデータの分析方法を操作すること。具体的には、(a) 有意になるまでデータ収集を続ける、(b) 共変量の投入・除外を試行する、(c) 外れ値の基準を変更する、(d) 複数の従属変数のうち有意になったものだけ報告する、などの行動を指す。
  • HARKing(Hypothesizing After Results are Known): データを分析した後に、結果に合致する仮説をあたかも事前に立てていたかのように記述すること。探索的分析を確認的分析として提示するため、偽陽性率の過小評価を招く。
  • 選択的報告(selective reporting): 有意な結果のみを論文に掲載し、有意でなかった分析を報告しないこと。出版バイアスと相まって、文献全体を歪める。

これらのQRPsはSimmons, Nelson, & Simonsohn (2011) が「研究者の自由度(researcher degrees of freedom)」として体系化した概念と密接に関連する。彼らのシミュレーション研究は、柔軟な分析戦略によって偽陽性率が名目上の5%から60%以上にまで膨張しうることを示した。

事前登録

Key Concept: 事前登録(pre-registration) データ収集または分析の前に、研究の仮説、方法、分析計画をタイムスタンプ付きで公開リポジトリに登録すること。事後的な分析操作を防止し、確認的研究と探索的研究を明確に区別するための制度的枠組み。

事前登録は、QRPsへの最も直接的な対策として広く採用されつつある。主要なプラットフォームとして、Open Science Framework(OSF)、AsPredicted、ClinicalTrials.gov がある。

事前登録が対処する問題と、その限界を整理する。

QRP 事前登録による対処 限界
p-hacking 分析手順を事前に固定 探索的分析を完全には排除できない
HARKing 仮説を事前に明示 事前登録後に仮説を追加する余地は残る
選択的報告 登録された全分析の報告を期待 強制力はなく、遵守は研究者の自律に依存
標本サイズの操作 目標サンプルサイズを事前に宣言 正確な検定力分析には事前の効果量推定が必要

事前登録のより強力な形態として、登録済み報告(Registered Reports) がある。これは、データ収集前に研究計画の査読を行い、方法論が適切であれば結果にかかわらず出版を約束する出版モデルである。結果のp値に出版の可否が左右されないため、出版バイアスの根本的な解消を目指す仕組みである。


ベイズ統計の基礎概念

頻度主義とベイズ主義の対比

ここまで扱ってきた統計的推論はすべて頻度主義(frequentist)の枠組みに基づいている。頻度主義では、確率を「長期的な頻度」として定義し、パラメータは固定された未知の値、データは確率的に変動するものと捉える。

Key Concept: ベイズ統計(Bayesian statistics) 確率を「信念の度合い(degree of belief)」として解釈し、事前分布(prior distribution)とデータに基づく尤度(likelihood)をベイズの定理で結合して、パラメータに関する事後分布(posterior distribution)を導出する統計的推論の枠組み。

両者の根本的な違いを整理する。

頻度主義 ベイズ主義
確率の解釈 長期的頻度 信念の度合い
パラメータ 固定された未知の値 確率分布を持つ
問い P(Data | H₀) P(H | Data)
事前情報 使用しない 事前分布として明示的に組み込む
代表的指標 p値、信頼区間 事後分布、ベイズファクター、確信区間

ベイズファクター

Key Concept: ベイズファクター(Bayes factor; BF) 2つの仮説(たとえばH₁とH₀)のもとでデータが観測される相対的な尤もらしさの比。BF₁₀ = P(Data | H₁) / P(Data | H₀) で定義され、BF₁₀ > 1 ならH₁を、BF₁₀ < 1 ならH₀を支持する証拠と解釈される。

ベイズファクターはp値にはない重要な特徴を持つ。

  1. 帰無仮説を支持する証拠を定量化できる: p値では「H₀を棄却できない」としか言えないが、ベイズファクターは「H₀を積極的に支持するデータである」と主張することが可能である。
  2. 証拠の強さを連続的に表現できる: 有意/非有意の二分法ではなく、証拠の強さを段階的に評価できる。

Jeffreys (1961) に基づくベイズファクターの解釈基準を示す。

BF₁₀ 証拠の強さ
> 100 H₁を支持する極めて強い証拠
30 - 100 H₁を支持する非常に強い証拠
10 - 30 H₁を支持する強い証拠
3 - 10 H₁を支持する中程度の証拠
1 - 3 H₁を支持する弱い証拠
1 証拠なし(どちらも同程度)
1/3 - 1 H₀を支持する弱い証拠
1/10 - 1/3 H₀を支持する中程度の証拠
< 1/10 H₀を支持する強い証拠

ベイズ統計は万能の解決策ではなく、事前分布の選択に主観性が入る点、計算コストが高い場合がある点などの課題を持つ。しかし、p値の限界を補完する方法論として、心理学においても採用が拡大している。


p値をめぐる学術的論争

p値の閾値 .05 は、Fisher (1925) が「便宜的な基準」として提案したものに由来するが、現在その恣意性が広く批判されている。主要な立場を整理する。

閾値の厳格化論: Benjamin et al. (2018) は、70名以上の研究者の連名で、新たな発見(new findings)の閾値を p < .005 に引き下げることを提案した。これにより偽陽性率を大幅に低減できるとする。

閾値の廃止論: p値の閾値による二分法的判断そのものを廃止すべきだとする立場もある。2019年には The American Statistician の特集号で、Wasserstein, Schirm, & Lazar が「統計的有意性(statistically significant)」という用語の使用中止を呼びかけた。800名以上の研究者が Nature への投書で「統計的有意性を廃止せよ(Retire statistical significance)」と訴えた。

正しい使用の推進論: p値を廃止するのではなく、正しい教育と運用を徹底すべきだとする立場。ASA声明もこの立場に近い。p値は不完全ではあるが、他の手法と併用することで有用なツールであり続けるとする。

この論争に最終的な決着はついておらず、現在の心理学研究では「p値を報告するが効果量と信頼区間を併記し、必要に応じてベイズファクターも報告する」という複合的なアプローチが推奨されている。


まとめ

  • p値は「H₀が真であると仮定したときのデータの確率」であり、仮説の正しさの確率ではない。この誤解は研究者の間でも広く残存している
  • ASA(2016)の声明は6原則を通じて、p値の機械的使用に対する警鐘を鳴らした
  • 多重比較問題ではFWERが膨張するため、Bonferroni補正やHolm法等による制御が必要である
  • 効果量はp値が提供しない量的情報(効果の大きさ)を補完し、APA等の報告基準で必須化が進んでいる
  • p-hacking、HARKing等のQRPsは偽陽性率を大幅に膨張させる。事前登録と登録済み報告はこれらへの制度的対策である
  • ベイズ統計はp値の限界(帰無仮説を支持する証拠を示せない等)を補完する枠組みとして注目されている
  • 現在の心理学研究では、p値・効果量・信頼区間・ベイズファクターを併用する複合的報告が推奨される

用語集(Glossary)

用語 英語表記 定義
多重比較問題 multiple comparisons problem 複数の検定を同時に行うことでType I エラー率が膨張する問題
ファミリーワイズ・エラー率 familywise error rate; FWER 一群の検定全体で少なくとも1つのType I エラーを犯す確率
Bonferroni補正 Bonferroni correction 各検定の有意水準をα/k に設定してFWERを制御する方法
事前登録 pre-registration データ収集・分析前に仮説と分析計画を公開リポジトリに登録すること
問題のある研究実践 questionable research practices; QRPs 偽陽性率を膨張させる研究行動の総称(p-hacking、HARKing等)
ベイズ統計 Bayesian statistics 事前分布とデータの尤度をベイズの定理で結合し事後分布を導出する推論枠組み
ベイズファクター Bayes factor; BF 2つの仮説のもとでのデータの相対的尤もらしさの比
登録済み報告 Registered Reports データ収集前に研究計画の査読を行い結果によらず出版を約束する出版モデル
偽発見率 false discovery rate; FDR 有意と判定した結果のうち誤りである割合の期待値

確認問題

Q1: p値が「帰無仮説が正しい確率」を表さない理由を、条件付き確率の観点から説明せよ。

A1: p値は P(Data | H₀)、すなわち帰無仮説が真であるという条件のもとでデータが観測される確率である。一方、「帰無仮説が正しい確率」は P(H₀ | Data) であり、これはデータが観測されたという条件のもとでの帰無仮説の確率である。P(A | B) と P(B | A) は一般に等しくなく(逆確率の誤謬)、後者を求めるにはベイズの定理と事前確率 P(H₀) が必要となる。p値のみからは P(H₀ | Data) を導出することはできない。

Q2: 10個の独立な検定を有意水準α = .05 で行う場合、(a) 少なくとも1つのType I エラーが生じる確率を計算せよ。(b) Bonferroni補正を適用した場合の各検定の有意水準を示せ。

A2: (a) FWER = 1 - (1 - .05)^10 = 1 - (.95)^10 ≈ 1 - .5987 = .4013。すなわち約40%の確率で少なくとも1回の偽陽性が生じる。(b) Bonferroni補正では各検定の有意水準を α/k = .05/10 = .005 に設定する。これによりFWERは近似的に .05 以下に制御される。

Q3: ある研究者が20個の従属変数について群間比較を行い、そのうち3つで p < .05 の結果を得た。この3つの結果のみを「有意な発見」として報告することの問題点を、多重比較問題とQRPsの観点から論じよ。

A3: 多重比較の観点からは、20回の検定ではFWER = 1 - (.95)^20 ≈ .64 であり、すべての帰無仮説が真であっても約1回は有意な結果が期待される。3つの有意な結果のうち一部は偶然による偽陽性である可能性が高い。Bonferroni補正を適用すれば各検定の基準は .05/20 = .0025 となり、p < .05 程度の結果は有意と判定されない。QRPsの観点からは、20個の変数のうち有意になったものだけを報告する行為は選択的報告に該当し、探索的に行った分析をあたかも確認的研究として提示するものである。適切な対応は、(1) 多重比較補正を適用すること、(2) 全20変数の結果を報告すること、(3) 有意な結果は探索的発見として位置づけ追試を推奨すること、である。

Q4: ベイズファクターがp値に対して持つ利点を2つ挙げ、それぞれ説明せよ。

A4: 第一に、ベイズファクターは帰無仮説を支持する証拠を定量化できる。p値では「H₀を棄却できない」としか言えず、「差がない」ことの積極的証拠にはならないが、ベイズファクター(たとえばBF₁₀ = 0.1)は「データがH₀のもとでH₁のもとより10倍尤もらしい」と積極的にH₀を支持する。第二に、ベイズファクターは証拠の強さを連続的に評価できる。p値に基づく判断は有意/非有意の二値的判断に陥りやすいが、ベイズファクターは「弱い証拠」から「極めて強い証拠」まで段階的に表現するため、より精緻な解釈が可能である。

Q5: 事前登録(pre-registration)がp-hackingの防止に有効である理由と、事前登録の限界をそれぞれ説明せよ。

A5: 事前登録は、データ収集前に仮説・分析手順・標本サイズをタイムスタンプ付きで公開登録することで、研究者が事後的に分析方法を操作する(p-hacking)余地を制限する。事前に宣言された分析計画からの逸脱は、論文中で明示的に説明する必要があるため、透明性が向上する。ただし限界も存在する。事前登録には法的強制力がなく、登録後に追加的な探索的分析を行うことは可能である。また、事前登録は確認的研究には有効だが、正当な探索的研究を過度に制約する恐れがある。登録自体の質(分析計画の具体性)にも差があり、曖昧な事前登録では防止効果が限定される。