コンテンツにスキップ

Module 2-4 - Section 5: 方法論的課題と改善

セクション情報

項目 内容
モジュール Module 2-4: 心理統計法 II・研究法
前提セクション Section 4(研究デザイン)
想定学習時間 5時間

導入

Module 0-1 Section 4では、心理学における再現性の危機(replication crisis)の概要と、出版バイアス・p-hacking・HARKingといった問題的研究実践(QRPs)の存在を概観した。本セクションでは、これらの問題の構造をより深く分析し、それに対する方法論的改革の全体像を扱う。

前セクション(Section 4)で学んだ研究デザインの妥当性の枠組み——内的妥当性、外的妥当性、構成概念妥当性、統計的結論妥当性——は、個々の研究を評価する道具立てであった。しかし2010年代に明確になったのは、個々の研究デザインの問題だけでなく、心理学研究の制度的・慣行的な構造そのものが知見の信頼性を蝕んでいたという事実である。本セクションでは、再現性の危機の実証的根拠を詳細に検討したうえで、QRPsの具体的メカニズム、事前登録とRegistered Reportsの手続き、帰無仮説有意性検定(NHST)の限界とベイズ統計の基礎概念、そしてオープンサイエンスの原則と実践を順に扱う。これらは現代心理学の方法論的基盤を再構築する試みであり、本モジュール全体の到達点となる。


再現性の危機

Open Science Collaboration (2015) の衝撃

Module 0-1 Section 4で触れた通り、Open Science Collaboration (OSC) による大規模再現研究(2015年、Science誌掲載)は心理学に深刻な衝撃を与えた。ここではその知見をより詳細に検討する。

OSCの研究は、Psychological Science、Journal of Personality and Social Psychology、Journal of Experimental Psychology: Learning, Memory, and Cognition の3誌に2008年に掲載された100本の研究を対象とした。各追試は元の研究者の協力を得て、可能な限り忠実にプロトコルを再現した。主要な知見は以下の通りである。

指標 元の研究 追試
有意な結果(p < .05)の割合 97% 36%
平均効果量(r) 0.403 0.197
95%信頼区間が元の効果量を含む割合 47%

認知心理学領域の追試成功率(約50%)に対し、社会心理学領域では約25%にとどまった。この領域差は、社会心理学が扱う効果がより文脈依存的であること、元の研究の効果量が過大推定されていた可能性が高いことなど、複数の要因によって説明される。

Many Labs プロジェクト

Key Concept: Many Labs プロジェクト(Many Labs project) 同一の研究を多数の独立した研究室が同時に追試する大規模国際共同プロジェクト。追試結果のばらつきを検討することで、効果の頑健性と文脈依存性を評価できる。研究室間の変動が小さければ効果は頑健であり、大きければ文脈条件やモデレータの検討が必要となる。

Many Labs 1(Klein et al., 2014)は13の古典的効果を36の研究室(6,344名の参加者)で追試した。アンカリング効果やフレーミング効果など10の効果は頑健に再現されたが、2つの効果は再現されず、1つの効果は再現が不明確であった。重要な知見として、研究室間の変動は全体として小さく、再現の成否は効果自体の特性に大きく依存していた。

Many Labs 2(Klein et al., 2018)は28の効果を186の研究室(約15,000名)で追試し、28効果のうち14が再現された(50%)。Many Labs 3(Ebersole et al., 2016)は10の効果の再現性を検討し、約3分の1のみが再現された。

これらのプロジェクトが示したのは、(1) 再現性の問題は特定の研究室や研究者に限定されない構造的問題であること、(2) 効果の中には文脈や標本を超えて頑健に再現されるものと、そうでないものがあること、(3) 元の研究の効果量の多くが過大推定されていたこと、である。

再現性の危機の制度的影響

再現性の危機は心理学の制度的変革を促進した。主な変化として、(1) 多くの学術雑誌が事前登録やデータ公開を推奨・義務化し始めた、(2) Registered Reports形式を導入する雑誌が急増した、(3) 研究の追試に対する学術的評価が向上した、(4) 学位論文や研究助成の審査において再現可能性への配慮が重視されるようになった、ことが挙げられる。

graph TD
    subgraph "再現性の危機の構造"
        QRP["問題のある研究実践<br>(QRPs)"]
        PB["出版バイアス"]
        LP["低い統計的検定力"]
        OE["効果量の過大推定"]
    end
    subgraph "制度的改革"
        PR["事前登録"]
        RR["Registered Reports"]
        OS["オープンサイエンス"]
        ML["大規模追試プロジェクト"]
    end
    QRP --> OE
    PB --> OE
    LP --> OE
    OE -->|"再現性の危機"| PR
    OE -->|"再現性の危機"| RR
    OE -->|"再現性の危機"| OS
    OE -->|"再現性の危機"| ML

問題のある研究実践(QRPs)

Module 0-1 Section 4ではp-hacking、出版バイアス、HARKingを概観した。ここではこれらの具体的メカニズムと、研究者の自由度という上位概念を詳細に扱う。

p-hacking

Key Concept: p-hacking(p-hacking) p値を統計的有意水準(通常 .05)未満にするために、分析手法の選択、変数の取捨選択、データの包含・除外規則、サブグループ分析などを恣意的に操作する実践。意図的な不正と明確に区別しがたい場合もあり、研究者自身が自覚なく行っていることも多い。

Simmons, Nelson, & Simonsohn (2011) は「False-Positive Psychology」と題した論文で、p-hackingの威力を実証的に示した。彼らは、(1) 従属変数を2つ用意する、(2) 共変量を追加するかどうかを事後的に決定する、(3) データ収集の終了時点を柔軟にする、(4) 条件を事後的に統合する、という4つの「研究者の自由度」を組み合わせることで、本来何の効果もない状況から有意な結果(p < .05)を60%以上の確率で得られることを示した。

p-hackingの具体的手法には以下のものがある。

手法 説明
選択的報告 複数の従属変数のうち有意になったもののみを報告する
柔軟な外れ値除去 p値が有意になるまで外れ値の基準を調整する
条件の統合・分割 実験条件を事後的に統合・分割して有意な比較を探す
共変量の追加・削除 p値が改善する共変量の組み合わせを探索する
optional stopping p値が有意になった時点でデータ収集を打ち切る

出版バイアスとfunnel plot

Key Concept: 出版バイアス(publication bias) 統計的に有意な結果や仮説を支持する結果が、そうでない結果に比べて出版されやすい傾向。有意でない結果が「ファイルの引き出し」に留まる(file drawer problem)ことで、公刊文献全体が偽りの効果で歪められる。

出版バイアスの存在を検出する手法の一つがfunnel plot(漏斗図)である。funnel plotは、横軸に効果量、縦軸に標本サイズ(または標準誤差の逆数)をとって各研究をプロットしたものである。出版バイアスがなければ、プロットは真の効果量を中心として対称な逆三角形(漏斗型)を形成する。標本サイズの小さい研究ほど効果量のばらつきが大きく、標本サイズの大きい研究ほど真の効果量に収束するためである。

出版バイアスが存在する場合、漏斗の一方(効果量が小さい側、すなわち有意でない結果の側)に欠損が生じ、非対称な分布となる。この非対称性の統計的検定として、Egger回帰検定やBegg順位相関検定がある。また、Trim and Fill法により欠損した研究を推定し、調整済みの効果量を算出することもできる。

Franco, Malhotra, & Simonovits (2014) は、研究助成を受けた研究の追跡調査により、帰無結果(null results)の研究は有意な結果の研究に比べて出版に至る確率が大幅に低いことを実証的に示した。

HARKing

Key Concept: HARKing(Hypothesizing After the Results are Known) データ分析の結果を見た後に、あたかも事前に予測していたかのように仮説を後付けで構築・報告する実践。確証的研究(confirmatory research)と探索的研究(exploratory research)の区別を曖昧にし、偽陽性率を大幅に増大させる。

Kerr (1998) がこの概念を命名した。HARKingが問題となるのは、仮説検定の論理が「事前に立てられた仮説を検証する」という確証的枠組みに依拠しているためである。データを見てから仮説を立てることは、データに内在するノイズやパターンに適合した仮説を生成することに他ならず、偽陽性率は名目上の有意水準(たとえば5%)をはるかに超える。

HARKingには以下のバリエーションがある。

  • 純粋なHARKing: 事前仮説がなかったにもかかわらず、結果から仮説を逆算して報告する
  • 部分的HARKing: 事前仮説は存在したが、有意でなかった仮説を報告から削除し、事後的に見出した有意な結果を仮説に追加する
  • 方向の変更: 事前仮説の方向(正の効果を予測していた)を、結果に合わせて変更する(負の効果を予測していたと報告する)

HARKing自体は研究の探索的側面として正当な役割を持ちうるが、問題はそれを確証的研究として偽装することにある。探索的分析で見出した知見は「探索的である」と明示し、独立したデータで確証的に検証する必要がある。

研究者の自由度

Key Concept: 研究者の自由度(researcher degrees of freedom) データの収集・処理・分析の各段階で研究者が行う裁量的な判断の総体。個々の判断はいずれも正当化可能であるが、これらの判断の組み合わせが分析結果に大きな影響を与えうる。Gelman & Loken (2014) はこれを「forking paths(分岐する小道)」と呼び、意図的な操作がなくとも分析結果が偏りうることを指摘した。

Gelman & Loken (2014) の「forking paths」の概念は、p-hackingを意図的な不正として捉える枠組みを超える重要な視座を提供した。研究者が直面する判断の分岐点として、以下のようなものがある。

  1. データ収集: 標本サイズの決定、データ収集の終了時点、参加者の包含・除外基準
  2. データ処理: 外れ値の定義と処理、欠測値の処理、変数の変換方法
  3. 分析: 統計モデルの選択、共変量の選択、交互作用の検討、多重比較の補正方法
  4. 報告: 報告する従属変数、報告する比較、効果量の表現形式

Steegen et al. (2016) はこの問題への対処として、仕様曲線分析(specification curve analysis)を提案した。これは、合理的に正当化可能なすべての分析仕様(変数の処理方法、モデルの選択など)を網羅的に実行し、結果の頑健性を評価する手法である。多くの仕様で一貫した結果が得られれば、知見は頑健と判断できる。

graph LR
    subgraph "研究者の自由度の分岐"
        DC["データ収集<br>標本サイズ、除外基準"]
        DP["データ処理<br>外れ値、欠測値、変換"]
        AN["分析<br>モデル、共変量、多重比較"]
        RP["報告<br>変数選択、比較の選択"]
    end
    DC --> DP --> AN --> RP
    RP -->|"各段階の分岐が<br>結果を左右する"| RES["報告される結果"]

事前登録とRegistered Reports

事前登録の概念と目的

Key Concept: 事前登録(preregistration) 研究の実施前に、仮説、分析計画、標本サイズの決定根拠、除外基準などを公開リポジトリに登録すること。事前登録の主たる目的は、確証的研究(confirmatory research)と探索的研究(exploratory research)を明確に区別し、HARKingやp-hackingの余地を制限することにある。

事前登録が区別するのは「仮説を持ってデータに臨む」ことと「データを見て仮説を構築する」ことの根本的な違いである。帰無仮説有意性検定の論理は、事前に定められた仮説について偽陽性率を制御する枠組みであり、事後的に生成された仮説にはその保証が及ばない。

事前登録に含むべき事項は以下の通りである。

登録項目 内容
研究仮説 検証する仮説の明確な記述(方向性を含む)
研究デザイン 実験条件、群の構成、測定時点
標本 標本サイズの決定根拠(検定力分析)、参加者の包含・除外基準
変数 独立変数の操作定義、従属変数の測定方法、共変量
分析計画 使用する統計手法、多重比較の補正、効果量の指標
データ除外基準 外れ値の定義、データの除外規則

事前登録は探索的分析を禁止するものではない。事前登録された分析(確証的分析)の結果を報告したうえで、事前登録にない追加的分析を「探索的分析」として明示的にラベル付けすればよい。重要なのは両者を区別することであり、探索的分析から得られた知見は独立した研究で確証的に検証すべきものとして位置づけられる。

主要なプラットフォーム

事前登録を行うための主要なプラットフォームとして以下がある。

  • Open Science Framework (OSF): Center for Open Science が運営する最も広く利用されているプラットフォーム。事前登録のほか、データ、分析コード、実験材料の公開・管理が可能
  • AsPredicted: Wharton School が運営する事前登録専用のプラットフォーム。9項目の簡潔なフォームで事前登録を完了できる手軽さが特徴
  • ClinicalTrials.gov: 臨床試験の事前登録データベース。心理学の介入研究(心理療法の効果研究など)でも利用される

Registered Reports

Key Concept: Registered Reports(登録報告) 研究のデータ収集前(Stage 1)に導入、仮説、方法、分析計画について査読を行い、この段階で「原則的採択」(in-principle acceptance: IPA)を付与する出版形式。IPAを受けた論文は、結果の方向(有意/非有意)にかかわらず掲載が保証される。データ収集後(Stage 2)には、事前登録された計画に従って分析が行われたかを確認する査読が行われる。

Registered Reportsの手順は以下の通りである。

graph LR
    subgraph "Stage 1"
        S1A["著者: 導入・仮説・<br>方法・分析計画を提出"]
        S1B["査読者: 理論的根拠・<br>方法の妥当性を審査"]
        S1C["IPA付与<br>(原則的採択)"]
    end
    subgraph "Stage 2"
        S2A["著者: データ収集・<br>事前登録通りの分析"]
        S2B["著者: 結果・<br>考察を追記して再提出"]
        S2C["査読者: 計画準拠性・<br>解釈の妥当性を審査"]
        S2D["出版"]
    end
    S1A --> S1B --> S1C --> S2A --> S2B --> S2C --> S2D

Registered Reportsの利点は多岐にわたる。

  1. 出版バイアスの排除: 結果に依存しない採択により、帰無結果も公刊される
  2. QRPsの抑制: 分析計画が事前に査読されるため、p-hackingやHARKingの余地が大幅に縮小する
  3. 研究デザインの質の向上: Stage 1の査読で方法論的改善のフィードバックが得られる(データ収集前に改善できる)
  4. 検定力の確保: 査読者が標本サイズの妥当性を確認する

Scheel, Schijen, & Lakens (2021) は、Registered Reportsで出版された論文の帰無結果の割合が、通常の出版形式に比べて大幅に高いことを示した。これは出版バイアスの軽減を実証するものである。2023年時点で、Registered Reportsを導入する雑誌は300誌以上に達している。


ベイズ統計の基礎概念

帰無仮説有意性検定(NHST)の限界

Key Concept: 帰無仮説有意性検定(NHST: Null Hypothesis Significance Testing) 帰無仮説のもとで観測されたデータ以上に極端な結果が得られる確率(p値)を計算し、p値が有意水準(通常 α = .05)を下回れば帰無仮説を棄却する手続き。Ronald A. Fisher の有意性検定とJerzy NeymanおよびEgon Pearson の仮説検定を折衷した手法として、20世紀半ばから心理学の標準的な推測統計手法となった。

NHSTは心理学における統計的推論の中核であり続けてきたが、その限界と誤用は長く議論されてきた。主要な問題は以下の通りである。

p値の誤解

p値は「帰無仮説が正しいと仮定したとき、手元のデータ以上に極端な結果が得られる確率」であり、以下のいずれでもない。

  • 帰無仮説が正しい確率(P(H₀|data) ではない)
  • 対立仮説が正しい確率
  • 結果が偶然で生じた確率
  • 効果の大きさや実質的な重要性の指標

Gigerenzer (2004) は、統計学の教科書や大学院教育においてもp値の誤解が蔓延していることを指摘し、これを「mindless statistics(無思慮な統計学)」と批判した。

二値的判断の問題

NHSTはp < .05かp ≥ .05かの二値的判断を強いる。しかし、p = .049 と p = .051 の実質的な差異は無視できるほど小さく、この境界で「有意/非有意」と判断を分けることの合理性は乏しい。さらに、p値は標本サイズに大きく依存するため、十分に大きな標本サイズを用いれば実質的に無意味な微小な効果でも統計的に有意となりうる。

帰無仮説支持の証拠の不在

NHSTが提供するのは「帰無仮説を棄却するかどうか」の判断のみであり、帰無仮説を支持する証拠は得られない。p ≥ .05 は「帰無仮説が正しい」ことを意味せず、単にデータが帰無仮説の棄却に十分ではなかったことを意味する。この「不在の証拠は、証拠の不在ではない(absence of evidence is not evidence of absence)」という原則は、しばしば見落とされる。

ベイズの定理の基本的考え方

Key Concept: ベイズの定理(Bayes' theorem) 事前の信念(事前確率)をデータ(尤度)に基づいて更新し、事後の信念(事後確率)を得る確率論の定理。Thomas Bayes(1763年に遺稿として発表)に由来する。事前分布と尤度から事後分布を算出するという枠組みは、仮説の確からしさを直接的に評価できる点でNHSTとは根本的に異なる。

ベイズの定理の基本構造は次のように表現される。

事後確率 ∝ 事前確率 × 尤度

すなわち、ある仮説の事後的な確からしさは、データを見る前のその仮説の確からしさ(事前確率)に、その仮説のもとでデータが得られる確からしさ(尤度)を掛け合わせたものに比例する。

NHSTとの最大の違いは、ベイズ的アプローチが「データが与えられたとき、仮説がどの程度もっともらしいか」P(H|data) を直接的に評価するのに対し、NHSTは「仮説が正しいとき、データがどの程度もっともらしいか」P(data|H₀) を評価する点にある。

NHST ベイズ的アプローチ
問いの形式 P(data|H₀):帰無仮説下でこのデータが得られる確率 P(H|data):データに基づく仮説の確からしさ
事前情報 使用しない 事前分布として組み込む
帰無仮説の支持 評価不能 ベイズファクターで定量化可能
標本サイズへの依存 p値は標本サイズに強く依存 事後確率はデータ量に応じて更新
結果の解釈 二値的(有意/非有意) 連続的な信念の更新

事前分布・尤度・事後分布

ベイズ的推論の3つの構成要素を整理する。

  • 事前分布(prior distribution): データを観察する前の、パラメータに関する信念の確率分布。先行研究の知見、理論的予測、あるいは「何も知らない」状態(無情報事前分布)を反映する
  • 尤度(likelihood): 特定のパラメータ値のもとで、観測データが得られる確率。データが持つ情報を表現する
  • 事後分布(posterior distribution): 事前分布と尤度を組み合わせて得られる、データを観察した後のパラメータに関する信念の確率分布。ベイズ的推論の最終成果物
graph LR
    PRIOR["事前分布<br>(prior)<br>先行知見・理論に<br>基づく事前の信念"] -->|"×"| LIKE["尤度<br>(likelihood)<br>データが持つ情報"]
    LIKE -->|"∝"| POST["事後分布<br>(posterior)<br>データで更新された<br>信念"]
    POST -->|"次の研究の<br>事前分布になる"| PRIOR

事前分布の設定は主観的であるという批判があるが、(1) 事前分布を明示的に記述することで仮定の透明性が高まる、(2) データが十分に蓄積されれば事前分布の影響は小さくなる(データが支配的になる)、(3) 感度分析により事前分布の選択が結論に与える影響を検討できる、といった反論がなされている。

ベイズファクター

Key Concept: ベイズファクター(Bayes factor: BF) 2つの競合する仮説(たとえば帰無仮説 H₀ と対立仮説 H₁)のどちらがデータによってより支持されるかを定量化する指標。BF₁₀ = P(data|H₁) / P(data|H₀) であり、BF₁₀ > 1 は対立仮説が相対的に支持されること、BF₁₀ < 1 は帰無仮説が相対的に支持されることを意味する。

ベイズファクターの最大の利点は、帰無仮説を「支持する証拠」を定量化できる点にある。NHSTでは非有意な結果がp ≥ .05 としか表現できないが、ベイズファクターはBF₀₁ = 10(帰無仮説が対立仮説の10倍もっともらしい)のように帰無仮説支持の強さを示せる。

Jeffreys (1961) が提案し、Kass & Raftery (1995) やLee & Wagenmakers (2013) が改訂したベイズファクターの解釈基準は以下の通りである。

BF₁₀ 証拠の強さ
> 100 極めて強い(対立仮説支持)
30–100 非常に強い
10–30 強い
3–10 中程度
1–3 逸話的(弱い)
1 証拠なし
1/3–1 逸話的(帰無仮説支持)
1/10–1/3 中程度(帰無仮説支持)
< 1/10 強い(帰無仮説支持)

ベイズファクターはNHSTの完全な代替ではなく、両者はそれぞれの強みを持つ。近年の心理学ではNHSTとベイズ的アプローチの併用が推奨されるようになっており、JASP(無料の統計ソフトウェア)などベイズ分析を容易に実行できるツールの普及がこの流れを後押ししている。


オープンサイエンスの原則

4つの側面

Key Concept: オープンサイエンス(open science) 研究プロセスの透明性、アクセス可能性、再利用可能性を高めることで、科学の自己修正機能を強化しようとする運動・実践の総称。再現性の危機への対応として、心理学では2010年代から急速に普及した。

オープンサイエンスは以下の4つの側面から構成される。

1. オープンデータ(open data)

研究で収集されたデータを、他の研究者がアクセス・再分析できるように公開すること。匿名化や倫理的配慮のうえで、分析に用いたデータセットをOSFやZenodo等のリポジトリに登録する。オープンデータにより、(1) 分析結果の検証が可能になる、(2) 二次分析やメタ分析が促進される、(3) データの再利用により研究の効率が向上する。

2. オープンマテリアル(open materials)

実験に使用した刺激材料、質問紙、実験プログラム(PsychoPy、jsPsychなどのコード)などを公開すること。他の研究者が追試を行う際に必要な情報を提供し、再現性を向上させる。

3. オープンアクセス(open access)

研究論文を誰でも無料で読めるようにすること。購読料の壁を取り除くことで、研究成果の社会的還元を促進する。プレプリントサーバー(PsyArXiv等)への投稿は、査読前の段階で研究を公開する手段として広く利用されている。

4. オープンソース(open source)

分析に使用したコード(R、Pythonスクリプト等)を公開すること。分析の完全な再現を可能にし、分析手法の透明性を確保する。

FAIR原則

Key Concept: FAIR原則(FAIR principles) データの管理と公開に関する原則。Findable(発見可能)、Accessible(アクセス可能)、Interoperable(相互運用可能)、Reusable(再利用可能)の4要件からなる。Wilkinson et al. (2016) が提唱し、分野を超えてデータ管理の標準として採用されている。

原則 内容 具体例
Findable データに永続的識別子(DOI等)が付与され、検索可能である OSFにDOI付きで登録
Accessible 明確なアクセス手順があり、可能な限り無料で取得できる ライセンス(CC-BY等)の明示
Interoperable 標準的な形式で、他のデータと統合可能である CSV形式、標準的な変数命名
Reusable メタデータや使用条件が明確で、再利用が容易である コードブック、分析手順書の添付

心理学におけるオープンサイエンスの実践例

Psychological Science誌のバッジ制度

Psychological Science誌は2014年にオープンサイエンスバッジ(Open Science Badges)を導入した。論文がオープンデータ、オープンマテリアル、事前登録の基準を満たす場合、それぞれに対応するバッジが付与される。Kidwell et al. (2016) は、バッジ導入後にデータ公開率が劇的に増加したことを報告している。

PsyArXiv

PsyArXiv は心理学分野のプレプリントサーバーであり、査読前の論文を無料で公開・閲覧できる。査読プロセスに入る前の段階で研究を広く共有でき、迅速なフィードバックの取得、研究の先取権の確保、オープンアクセスの実現に寄与する。

大規模共同研究プラットフォーム

Psychological Science Accelerator (PSA) は、世界各国の研究室が共同で大規模な研究を実施するネットワークである。多文化的標本による大規模研究を民主的に運営することで、WEIRD問題の克服と研究の一般化可能性の向上を目指している。

graph TD
    subgraph "オープンサイエンスの実践"
        OD["オープンデータ<br>OSF, Zenodo"]
        OM["オープンマテリアル<br>実験プログラム・刺激"]
        OA["オープンアクセス<br>PsyArXiv"]
        OSS["オープンソース<br>分析コード(R, Python)"]
    end
    subgraph "制度的支援"
        BADGE["バッジ制度<br>(Psychological Science)"]
        REG["事前登録・RR"]
        PSA2["大規模共同研究<br>(PSA, Many Labs)"]
    end
    OD --> BADGE
    OM --> BADGE
    REG --> BADGE
    OD --> PSA2
    OM --> PSA2
    OSS --> PSA2

まとめ

  • Open Science Collaboration (2015) の大規模再現研究は、心理学研究の約36%しか追試で再現されなかったことを示し、再現性の危機を実証的に確認した。Many Labsプロジェクトは、この問題が構造的であることを裏づけた
  • QRPs(p-hacking、出版バイアス、HARKing)と研究者の自由度が再現性の危機の主要な原因であり、意図的な不正だけでなく、無自覚の分析的柔軟性も偽陽性率を増大させる
  • 事前登録は確証的研究と探索的研究の区別を明確化し、Registered Reportsは結果に依存しない査読により出版バイアスを構造的に排除する
  • NHSTの限界(p値の誤解、帰無仮説支持の証拠の不在、二値的判断)に対し、ベイズ的アプローチは仮説の確からしさの直接的評価とベイズファクターによる帰無仮説支持の定量化を可能にする
  • オープンサイエンス(オープンデータ・マテリアル・アクセス・ソース)とFAIR原則は、研究の透明性と再現可能性を制度的に保障する枠組みである

モジュール全体の総括

Module 2-4では、心理統計法と研究法の発展的内容を5つのセクションを通じて学んだ。Section 1(分散分析の発展)で群間・群内・混合計画における平均差の検定を、Section 2(回帰分析)で変数間の予測的関係の分析を、Section 3(多変量解析の基礎)で多変数間の構造的関係の探索と検証を扱い、心理学研究で用いられる主要な統計手法の体系を構築した。Section 4(研究デザイン)ではこれらの統計手法が適用される研究デザインの妥当性を評価する枠組みを学び、本セクション(Section 5)では、統計手法とデザインの適切な運用を脅かす制度的・慣行的な問題と、その改善策を検討した。

このモジュールを通じて浮かび上がるのは、統計手法の技術的な理解だけでは不十分であり、手法が使用される研究実践のコンテクスト——動機づけられた推論、出版圧力、分析的柔軟性——を批判的に検討する姿勢が不可欠であるという認識である。再現性の危機とそれに対する改革は、心理学が科学としての自己修正機能を発揮した事例として、本モジュールの知見を統合する視座を提供している。

用語集(Glossary)

用語 英語表記 定義
再現性の危機 replication crisis 公刊された研究の多くが追試で再現されないという構造的問題
Many Labs プロジェクト Many Labs project 同一研究を多数の研究室で同時に追試する大規模国際共同プロジェクト
p-hacking p-hacking p値を有意にするために分析手法を恣意的に操作する実践
出版バイアス publication bias 有意な結果が優先的に出版される傾向
HARKing HARKing 結果を見てから仮説を後付けで構築・報告する実践
研究者の自由度 researcher degrees of freedom データの収集・処理・分析における裁量的判断の総体
事前登録 preregistration 研究実施前に仮説・分析計画を公開リポジトリに登録すること
Registered Reports Registered Reports データ収集前に査読・原則的採択を行う出版形式
帰無仮説有意性検定 NHST 帰無仮説下でのp値に基づく統計的検定手続き
ベイズの定理 Bayes' theorem 事前確率を尤度で更新して事後確率を得る確率論の定理
ベイズファクター Bayes factor 競合する2仮説のどちらがデータにより支持されるかの指標
事前分布 prior distribution データ観察前のパラメータに関する信念の確率分布
事後分布 posterior distribution データ観察後のパラメータに関する更新された信念の確率分布
尤度 likelihood 特定のパラメータ値のもとでデータが得られる確率
オープンサイエンス open science 研究の透明性・再現可能性を高める運動・実践の総称
FAIR原則 FAIR principles データの発見可能性・アクセス可能性・相互運用可能性・再利用可能性に関する原則
仕様曲線分析 specification curve analysis 合理的な全分析仕様を網羅的に実行し結果の頑健性を評価する手法

確認問題

Q1: Open Science Collaboration (2015) の大規模再現研究の主要な知見を3点挙げ、それが心理学にどのような制度的変革を促したかを説明せよ。

A1: 主要な知見は以下の3点である。(1) 元の研究で97%が有意であった結果のうち、追試で有意となったのは36%にとどまった。(2) 追試で得られた平均効果量は元の研究の約半分であった。(3) 社会心理学領域の追試成功率(約25%)は認知心理学領域(約50%)より顕著に低かった。これらの知見は心理学に以下の制度的変革を促した。多くの学術雑誌が事前登録やデータ公開を推奨・義務化し始め、Registered Reports形式を導入する雑誌が急増した。研究の追試に対する学術的評価が向上し、追試を積極的に実施・出版する文化が形成されつつある。研究助成の審査でも再現可能性への配慮が重視されるようになった。

Q2: p-hackingと研究者の自由度(forking paths)の概念の共通点と相違点を説明し、仕様曲線分析(specification curve analysis)がこの問題にどのように対処するかを述べよ。

A2: p-hackingと研究者の自由度はいずれも「分析上の選択が結果に影響する」という問題を指すが、p-hackingが主にp値を有意にするための意図的・半意図的な操作を想定しているのに対し、Gelman & Loken (2014) のforking paths(研究者の自由度)は、意図的な操作がなくとも、データの収集・処理・分析の各段階における正当な判断の組み合わせが分析結果を大きく左右しうることを指摘する概念である。すなわち、研究者の自由度はp-hackingより広い概念であり、善意の研究者にも当てはまる。仕様曲線分析は、合理的に正当化可能なすべての分析仕様(外れ値の処理方法、共変量の選択、統計モデルの種類など)を網羅的に実行し、すべての仕様にわたる結果の分布を報告する。多くの仕様で一貫した結果が得られれば知見は頑健と判断でき、特定の仕様のみで有意な結果が得られる場合は頑健性に懸念があると判断できる。

Q3: NHSTにおけるp値の定義を正確に述べたうえで、p値に関する典型的な誤解を2つ挙げ、それぞれがなぜ誤りであるかを説明せよ。

A3: p値の正確な定義は「帰無仮説が正しいと仮定したとき、手元のデータ以上に極端な結果が得られる確率」である。典型的な誤解の第一は「p値は帰無仮説が正しい確率である」というものである。これはP(data|H₀)とP(H₀|data)の混同であり、p値はデータの確率(帰無仮説を条件としたもの)であって仮説の確率ではない。仮説の確率を求めるにはベイズの定理による反転が必要であり、事前確率の情報が不可欠である。第二の誤解は「p < .05 は効果が実質的に重要であることを意味する」というものである。p値は標本サイズに強く依存するため、標本サイズが十分に大きければ実質的に無意味な微小な効果でも統計的に有意となりうる。統計的有意性と実質的重要性は別概念であり、効果量や信頼区間の検討が不可欠である。

Q4: Registered Reportsの手順を説明し、この出版形式が従来の出版プロセスと比較して、出版バイアスとQRPsをどのように構造的に抑制するかを論じよ。

A4: Registered Reportsは2段階の査読から構成される。Stage 1では、著者がデータ収集前に導入、仮説、方法、分析計画を提出し、査読者はこれらの理論的根拠と方法論的妥当性を審査する。この段階で原則的採択(IPA)が付与され、結果の方向にかかわらず掲載が保証される。Stage 2では、著者がデータ収集と事前登録通りの分析を行い、結果と考察を追記して再提出する。査読者は計画準拠性と解釈の妥当性を確認する。出版バイアスに対しては、Stage 1での結果非依存的な採択決定が直接的に対処する。結果が帰無であっても出版が保証されるため、file drawer problemが構造的に解消される。QRPsに対しては、(1) 分析計画が事前に査読されるためp-hackingの余地が縮小し、(2) 仮説が事前に固定されるためHARKingが不可能となり、(3) 標本サイズの妥当性が査読段階で確認されるため検定力不足の問題も軽減される。

Q5: ベイズファクター(BF)がNHSTのp値と比較して持つ利点を、「帰無仮説の支持」という観点から説明せよ。

A5: NHSTのp値は帰無仮説を「棄却するかしないか」の二値的判断のみを提供し、帰無仮説を積極的に支持する証拠を定量化できない。p ≥ .05 は「帰無仮説が正しい」ことを意味せず、データが棄却に不十分であったことを意味するに過ぎない。これに対し、ベイズファクターは2つの仮説の相対的なデータ支持の比を直接的に定量化する。BF₀₁ > 1 であれば帰無仮説が対立仮説より支持されていることを示し、その値(たとえばBF₀₁ = 10であれば「帰無仮説は対立仮説の10倍もっともらしい」)によって支持の強さを連続的に評価できる。これは「効果が存在しないこと」を示す必要がある研究(安全性の確認、グループ間に差がないことの論証など)において特に重要な利点である。NHSTでは「有意でなかった」としか報告できない場面で、ベイズファクターは帰無仮説支持の積極的な証拠を提示できる。