Module 4-2 - Section 1: 再現性の危機と改革¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 4-2: 心理学の現代的課題 |
| 前提セクション | なし |
| 想定学習時間 | 8時間 |
導入¶
心理学は2010年代に、学問としての信頼性を根幹から問い直す危機に直面した。公刊された研究の多くが追試で再現されないという事実が大規模に実証され、「再現性の危機(replication crisis)」と呼ばれる状況が広く認識されるに至った。この危機は、個々の研究者の不正や能力不足に帰されるものではなく、出版バイアス、問題のある研究実践(QRPs)、統計的検定の形式的運用といった構造的要因の複合的な帰結であった。
Module 2-4 Section 5では、再現性の危機の実証的根拠、QRPsの具体的メカニズム、事前登録とRegistered Reports、ベイズ統計の基礎概念、およびオープンサイエンスの原則を方法論の観点から詳述した。本セクションではそれらの知見を前提としたうえで、心理学という学問全体がこの危機にどう応答し、いかなる改革を推進してきたかを統合的に検討する。具体的には、(1) 再現性問題の構造的原因の多層的分析、(2) オープンサイエンス運動の制度的展開、(3) 大規模共同研究の方法論と成果、(4) 計算論的・形式的モデリングの役割、という4つの軸から、危機と改革の全体像を描出する。
再現性問題の構造的原因¶
多層的原因モデル¶
再現性の危機は単一の原因に帰属できるものではない。その原因は、個人レベル(研究者の行動)、制度レベル(出版システム・評価制度)、認識論レベル(統計的推論の枠組み)の3層にわたって構造化されている。
graph TD
subgraph "認識論レベル"
E1["NHSTの形式的運用"]
E2["効果量・検定力の軽視"]
E3["確証的研究と探索的研究の混同"]
end
subgraph "制度レベル"
I1["出版バイアス"]
I2["'publish or perish'文化"]
I3["新奇性の過度な重視"]
I4["追試の学術的低評価"]
end
subgraph "個人レベル"
P1["p-hacking"]
P2["HARKing"]
P3["選択的報告"]
P4["不十分な標本サイズ"]
end
E1 --> P1
E3 --> P2
I1 --> P3
I2 --> P1
I2 --> P2
I3 --> I4
I4 -->|"追試されない"| RC["再現性の危機"]
P1 --> RC
P2 --> RC
P3 --> RC
P4 --> RC
I1 --> RC
Key Concept: 問題のある研究実践(Questionable Research Practices; QRPs) データの収集・分析・報告の各段階において、偽陽性率を膨張させる一連の研究行動の総称。p-hacking、HARKing、選択的報告、optional stopping(p値が有意になった時点でデータ収集を停止する行為)などが含まれる。個々の行為は必ずしも意図的な不正ではないが、累積的に知見の信頼性を深刻に毀損する。(→ Module 2-4, Section 5「方法論的課題と改善」参照)
QRPsの蔓延:実証的証拠¶
QRPsがどの程度蔓延しているかを実証的に示した研究として、John, Loewenstein, & Prelec (2012) の匿名調査が重要である。彼らは2,000名以上の心理学研究者を対象に匿名のアンケート調査を実施し、以下のような結果を得た。
| QRP | 自己報告率 |
|---|---|
| 有意にならなかった従属変数を報告しなかった | 63.4% |
| 結果を見た後にデータ収集を継続するか決定した | 55.9% |
| 有意にならなかった条件を報告しなかった | 27.7% |
| 結果が有意でなかった研究を報告しなかった | 45.8% |
| 予期しなかった結果を事前に予測していたと主張した(HARKing) | 35.0% |
| 結果を見た後に外れ値を除外するか決定した | 38.2% |
これらの数値は自己報告であるため過小評価の可能性が高く、実際の蔓延率はこれを上回ると推定される。注目すべきは、多くの研究者がこれらの実践を「問題がある」と認識しつつも、キャリア上の圧力や慣行として続けていたことである。
出版バイアスのメカニズム¶
Key Concept: 出版バイアス(publication bias) 統計的に有意な結果や仮説支持的な結果が、帰無結果(null results)に比べて出版されやすい体系的な傾向。「ファイル引き出し問題(file drawer problem)」(Rosenthal, 1979)として古くから指摘されてきたが、再現性の危機の文脈でその深刻さが再認識された。
出版バイアスは個々の研究者の判断だけでなく、学術出版システム全体の構造に起因する。Fanelli (2012) のメタ分析によれば、肯定的結果を報告する論文の割合は1990年から2007年にかけて約22%増加しており、この傾向は分野横断的に観察された。心理学と精神医学は特に肯定的結果の比率が高い分野であった。
Franco, Malhotra, & Simonovits (2014) は、Time-sharing Experiments for the Social Sciences (TESS) プログラムの助成を受けた研究の追跡調査を行い、帰無結果を得た研究の約60%が論文として公刊されなかったことを示した。一方、有意な結果を得た研究のほぼすべてが出版に至っていた。
graph LR
subgraph "研究の母集団"
R1["有意な結果<br>の研究"]
R2["帰無結果<br>の研究"]
end
subgraph "公刊文献"
PUB["出版された<br>研究"]
end
subgraph "未出版"
FD["ファイル引き出し<br>(file drawer)"]
end
R1 -->|"高い出版確率"| PUB
R2 -->|"低い出版確率"| FD
R2 -.->|"一部のみ"| PUB
PUB -->|"文献全体が<br>偽りの効果で歪む"| META["メタ分析の<br>過大推定"]
統計的検定力の慢性的不足¶
再現性の危機を増幅させたもう一つの構造的要因は、心理学研究における統計的検定力(statistical power)の慢性的な不足である。Cohen (1962) は心理学研究の平均的な検定力が0.48程度であることを報告し、以後半世紀にわたってこの問題が繰り返し指摘されてきた。Bakker, van Dijk, & Wicherts (2012) の分析によれば、心理学研究の平均検定力は依然として0.35程度にとどまっている。
Key Concept: 統計的検定力(statistical power) 対立仮説が真であるとき、それを正しく検出する確率(1 - β)。検定力が低い研究では、(1) 真の効果を見逃す確率が高く、(2) 有意になった場合でも効果量が過大推定される傾向があり、(3) 有意な結果の再現性が低下する。Cohen (1988) は検定力0.80を慣例的な基準として推奨している。
低検定力が再現性に与える影響は直感に反する面がある。検定力が低い研究から得られた有意な結果は、効果量の過大推定(winner's curse)を伴いやすい。これは、低検定力の条件下では効果量が偶然に大きく推定された場合にのみp < .05を達成できるためである。追試研究では効果量が真の値に回帰するため、元の研究の効果量に基づいて設計された追試は必然的に再現に失敗しやすくなる。
オープンサイエンス運動の制度的展開¶
危機への応答としてのオープンサイエンス¶
再現性の危機は心理学における科学的実践のあり方を根本的に再考させ、オープンサイエンス運動として結実した。Module 2-4 Section 5ではオープンサイエンスの4つの側面(オープンデータ、オープンマテリアル、オープンアクセス、オープンソース)とFAIR原則を概説したが、ここではその制度的展開と実効性を検討する。
Key Concept: オープンサイエンス(open science) 研究プロセスの全段階——仮説生成、データ収集、分析、報告——における透明性、アクセス可能性、再現可能性を高めることで、科学の自己修正機能を強化しようとする運動・実践の総称。心理学では2010年代から急速に制度化された。(→ Module 2-4, Section 5「方法論的課題と改善」参照)
Center for Open Science (COS) とOSF¶
オープンサイエンス運動の制度的中核を担ったのがCenter for Open Science(COS、2013年設立)である。COS は Brian Nosek(バージニア大学)らによって設立された非営利団体であり、Open Science Framework(OSF)の運営を通じて、事前登録、データ共有、研究材料の公開を一元的に支援するインフラストラクチャを構築した。
OSFの主要機能は以下の通りである。
| 機能 | 説明 |
|---|---|
| 事前登録 | 研究計画をタイムスタンプ付きで登録・公開 |
| データ管理 | 研究データのアップロード・バージョン管理・DOI付与 |
| プロジェクト管理 | 共同研究者間での資料共有・進捗管理 |
| プレプリント | PsyArXiv等のプレプリントサーバーとの統合 |
| コンポーネント構成 | 1つのプロジェクトに複数の研究・データセットを階層的に整理 |
Transparency and Openness Promotion (TOP) ガイドライン¶
Key Concept: TOPガイドライン(Transparency and Openness Promotion Guidelines) COS が策定した、学術雑誌における透明性とオープン性を促進するためのガイドライン。8つの基準領域(引用基準、データの透明性、分析コードの透明性、研究材料の透明性、デザインと分析の透明性、事前登録、分析計画の事前登録、追試)について、それぞれ3段階(Level 1: 開示、Level 2: 要求、Level 3: 検証)の実施水準を定めている。Nosek et al. (2015) がScience誌に発表。
TOPガイドラインは2015年の発表時に500以上の学術雑誌と100以上の学術団体から支持を受けた。各雑誌は自らの方針としてどの基準をどのレベルで採用するかを宣言することで、段階的にオープンサイエンスの実践を導入できる。
事前登録の拡大とRegistered Reports¶
Module 2-4 Section 5で詳述した事前登録とRegistered Reportsは、2010年代後半から急速に普及した。OSFにおける事前登録の累計件数は2015年の約3,000件から2023年には約100,000件以上に急増した。Registered Reportsを導入する学術雑誌も2013年の数誌から2023年には300誌以上に拡大している。
timeline
title 再現性改革の主要なマイルストーン
2011 : Simmons et al. "False-Positive Psychology"
: Bem (2011) の予知実験論争
2012 : John et al. QRPs調査
: Perspectives on Psychological Science 特集号
2013 : Center for Open Science 設立
: 初のRegistered Reports導入(Cortex誌)
2014 : Many Labs 1 発表
2015 : Open Science Collaboration 大規模再現研究
: TOPガイドライン発表
2016 : ASA p値声明
2017 : Psychological Science Accelerator 発足
2018 : Many Labs 2 発表
: Benjamin et al. p < .005 提案
2020以降 : オープンサイエンスの制度的定着
バッジ制度の効果¶
Psychological Science 誌が2014年に導入したオープンサイエンスバッジ(Open Science Badges)は、行動変容を促す低コストの介入として注目される。バッジの種類は3つである。
- Open Data バッジ: データの公開を認証
- Open Materials バッジ: 研究材料の公開を認証
- Preregistered バッジ: 事前登録の実施を認証
Kidwell et al. (2016) はバッジ導入前後のデータを比較し、バッジ導入後にデータ公開率が約3%から約40%に劇的に増加したことを報告した。ただし、バッジ制度の効果は当該雑誌における自発的参加に依存しており、公開されたデータの質や完全性の検証が不十分であるという限界も指摘されている。
大規模共同研究プロジェクト¶
Many Labs プロジェクトの系譜¶
Module 2-4 Section 5で概要を示したMany Labsプロジェクトの系譜をより包括的に整理する。大規模共同研究は、再現性の検証という目的のみならず、効果の文脈依存性やモデレータの探索という理論的貢献をも果たしている。
Key Concept: 大規模共同追試プロジェクト(large-scale collaborative replication project) 同一の研究を多数の独立した研究室が共同で追試する国際的研究プログラム。単一の研究室による追試と比較して、(1) 大きな統計的検定力、(2) 研究室間変動の推定、(3) 文化差・標本差の検討が可能となる。Many Labs、Reproducibility Project: Psychology、Registered Replication Reports (RRR) 等が代表例である。
| プロジェクト | 年 | 対象 | 主要な知見 |
|---|---|---|---|
| Reproducibility Project: Psychology | 2015 | 100研究 | 追試成功率36%、平均効果量が約半分に縮小 |
| Many Labs 1 | 2014 | 13効果、36研究室 | 10/13効果が再現、研究室間変動は小さい |
| Many Labs 2 | 2018 | 28効果、186研究室 | 14/28効果が再現(50%)、WEIRD問題の示唆 |
| Many Labs 3 | 2016 | 10効果 | 約1/3が再現、学期時期の影響は小さい |
| Many Labs 4 | 2022 | 死の顕現性効果 | 元の著者の監修下でも再現されず |
| Many Labs 5 | 2022 | RP:Pの追試 | 原著論文のプロトコルに忠実な追試でも類似の結果 |
| RRR (Registered Replication Reports) | 2014- | 個別効果 | 各回1つの効果を多研究室で追試 |
Reproducibility Project: Psychology (RP:P)¶
Open Science Collaboration (2015) による RP:P は再現性の危機を実証的に確定した画期的研究である(→ Module 2-4, Section 5 参照)。ここでは補完的な論点を扱う。
RP:P に対する批判として、Gilbert et al. (2016) はScience誌に反論を発表し、(1) 追試のプロトコルが元の研究を忠実に再現していない場合がある、(2) 元の研究と追試の標本の人口統計学的特性が異なる、(3) 統計的に有意でないことは効果が存在しないことを意味しない、と主張した。Anderson et al. (2016) はこれに再反論し、(1) 多くの追試は元の著者と協力して実施された、(2) 文脈依存性だけでは低い再現率を十分に説明できない、(3) 効果量の大幅な縮小は文脈差ではなく過大推定によって説明される、と論じた。
この論争は「再現の失敗」の解釈が一義的ではないことを明示した。再現の失敗は、(a) 元の研究が偽陽性であった、(b) 効果が存在するが追試の検定力が不足であった、(c) 効果が存在するが文脈条件やモデレータが異なった、のいずれかまたはその組み合わせによって生じうる。
Psychological Science Accelerator (PSA)¶
Key Concept: Psychological Science Accelerator (PSA) 2017年に Christopher Chartier らによって設立された、世界各国の研究室を結びつける分散型研究ネットワーク。追試だけでなく新規研究も民主的なプロセス(提案の公募・投票制審査)で選定・実施し、多文化的で大規模な標本を確保する。WEIRD問題の克服と研究の一般化可能性の向上を目指している。
PSA は Many Labs プロジェクトの成功を受け、「追試」に限定されない恒常的な共同研究インフラストラクチャとして設計された。2023年時点で70か国以上、500以上の研究室が参加しており、以下の特徴を持つ。
- 民主的運営: 研究提案は公募制で、投票によって実施プロジェクトが選定される
- 多文化的標本: 参加研究室の地理的多様性により、WEIRD問題を構造的に軽減する
- 方法論的厳密さ: 全プロジェクトでRegistered Reportsまたは事前登録を採用
- インフラ共有: データ収集プラットフォーム、翻訳プロセス、統計分析パイプラインを標準化
graph TD
subgraph "PSAの運営プロセス"
PROP["研究提案の公募"]
REV["委員会による審査<br>+ コミュニティ投票"]
DESIGN["研究デザインの<br>共同策定"]
COLLECT["多文化的データ<br>収集(70か国以上)"]
ANALYSIS["事前登録された<br>分析の実行"]
PUB["Registered Reports<br>として出版"]
end
PROP --> REV --> DESIGN --> COLLECT --> ANALYSIS --> PUB
追試研究の位置づけの変化¶
大規模共同研究の蓄積を通じて、追試研究の学術的位置づけは大きく変化した。かつて追試は「独創性に欠ける」として低く評価され、主要雑誌への掲載も困難であった。しかし、以下のような変化が生じている。
- 追試専門誌の創刊: Registered Replication Reports(Association for Psychological Science が主導)は、効果の追試を専門的に扱うジャーナルシリーズである
- 主要雑誌の方針転換: Nature Human Behaviour、Psychological Science 等の主要誌が追試研究の投稿を明示的に歓迎するようになった
- 学位論文への追試の組み込み: 一部の大学院プログラムでは、学位論文に追試研究を含めることを推奨している
- 研究助成の変化: 英国の Economic and Social Research Council (ESRC) 等、追試研究への助成を行う機関が増加している
計算論的・形式的モデリングの役割¶
言語的理論の限界¶
再現性の危機は統計的・方法論的問題としてのみ理解されるべきではなく、心理学における理論構築の様式そのものにも原因があるという指摘がなされている。Muthukrishna & Henrich (2019) は「心理学の危機は再現性の危機ではなく、理論の危機である」と主張した。
Key Concept: 理論の危機(theory crisis) 心理学における理論の多くが言語的・質的な記述にとどまり、精密な定量的予測を生成しないという問題。Muthukrishna & Henrich (2019) は、曖昧な理論がQRPsを容易にする余地を生み出していると主張し、形式的・計算論的モデリングによる理論の精密化を求めた。
心理学の理論は伝統的に言語的な命題の形で表現されてきた。たとえば「認知的不協和は態度変容を引き起こす」「自我枯渇により自己制御能力が低下する」といった記述は、効果の方向は示すものの、その大きさ、境界条件、時間的動態について定量的な予測を与えない。このため、データとの適合・不適合の判断が曖昧になり、事後的な解釈の自由度が広がる。
形式的モデリングの意義¶
Key Concept: 形式的モデリング(formal modeling) 心理学的理論を数学的方程式、計算論的アルゴリズム、シミュレーションモデル等の形式で明示的に記述する方法論。言語的理論に比べ、(1) 予測の精密性が高く、(2) 仮定が透明であり、(3) データとの定量的な比較が可能となる。
形式的モデリングが再現性問題に対してもつ意義は以下の通りである。
- 予測の精密化: モデルは効果の方向だけでなく大きさと関数形を予測するため、確証的検証が厳密になる
- 仮定の明示化: モデルの数学的構造はすべての仮定を明示的にするため、暗黙の前提が排除される
- パラメータ推定: モデルのパラメータをデータから推定することで、理論と観測の対応が定量化される
- 予測とポストディクションの区別: 形式的モデルはデータに対する事前の予測と事後的な説明を明確に区別できる
計算論的モデリングの具体例¶
心理学における計算論的モデリングの主要なアプローチを整理する。
| アプローチ | 説明 | 応用分野 |
|---|---|---|
| ベイズ認知モデル | 認知をベイズ推論として形式化 | 知覚、言語処理、因果推論 |
| 強化学習モデル | 報酬に基づく学習と意思決定の数理モデル | 学習、意思決定、中毒行動 |
| ドリフト拡散モデル | 証拠蓄積過程による反応時間と選択の同時モデル化 | 知覚判断、認知制御 |
| ネットワークモデル | 心理変数間の相互作用ネットワーク | 精神病理、パーソナリティ |
| エージェントベースモデル | 個体の行動ルールから集団現象を生成 | 社会心理学、集団行動 |
Palminteri, Wyart, & Koechlin (2017) は、計算論的モデリングが仮説の精密化、代替モデルの定量的比較、潜在認知過程の推定を可能にすることで、「言語的仮説 → p値による検証」という従来のパラダイムを超える研究様式を提供すると主張した。
graph LR
subgraph "従来の研究パラダイム"
VT["言語的理論"] --> VH["言語的仮説"]
VH --> NHST["NHST<br>(p < .05?)"]
NHST --> INT["事後的解釈"]
end
subgraph "計算論的アプローチ"
FM["形式的モデル"] --> QP["定量的予測"]
QP --> MC["モデル比較<br>(BIC, ベイズファクター等)"]
MC --> PE["パラメータ推定<br>と理論修正"]
end
VT -.->|"形式化"| FM
理論の精密化と再現性の関係¶
理論の精密化が再現性の向上に寄与するメカニズムは多岐にわたる。第一に、定量的予測を生成する理論は、確証と反証が明確であるためHARKingの余地が縮小する。第二に、形式的モデルはデータとの適合度を定量的に評価できるため、p値の閾値のみに依拠した二値的判断を超えることができる。第三に、モデルの仮定とパラメータが明示されることで、追試研究者が元の研究の理論的枠組みを正確に理解・再現できる。
Smaldino & McElreath (2016) はエージェントベースモデルを用いた進化シミュレーションにより、「出版圧力」と「方法論的杜撰さへの許容」が組み合わさると、低検定力かつ高偽陽性率の研究実践が科学コミュニティ内で「自然選択」されることを示した。彼らはこの現象を「不正の自然選択(natural selection of bad science)」と呼び、個人のインセンティブ構造と制度的報酬体系の改革なくして再現性の危機は解決しないと論じた。
改革の統合と今後の展望¶
改革の複合的構造¶
再現性の危機への応答は、単一の解決策ではなく、相互に補完する複数の改革の組み合わせとして理解すべきである。
| 改革 | 対処する問題 | 限界 |
|---|---|---|
| 事前登録 | p-hacking、HARKing | 強制力の欠如、探索的研究の制約 |
| Registered Reports | 出版バイアス、QRPs全般 | 審査コストの増大、雑誌の対応限界 |
| オープンデータ | 分析結果の検証不能 | プライバシー、二次利用の倫理 |
| 大規模共同追試 | 低検定力、効果量の過大推定 | コスト、実施可能な効果の限定 |
| 形式的モデリング | 理論の曖昧さ、事後的解釈 | 技術的障壁、全領域への適用困難 |
| バッジ・インセンティブ | 行動変容の動機づけ不足 | 形式的遵守(チェックボックス化) |
| 統計改革(ベイズ等) | NHSTの形式的運用 | 教育コスト、合意形成の困難 |
残された課題¶
改革の進展にもかかわらず、以下の課題が残されている。
1. 質的研究・臨床実践との接続 再現性改革の議論は量的実験研究に偏重しており、質的研究、事例研究、臨床実践における「再現」の意味は十分に検討されていない。
2. 制度的インセンティブの整合性 オープンサイエンスの実践は研究者個人のコスト(時間、労力)を増大させるが、それに見合う報酬(採用・昇進での評価)が制度的に保障されているとは言いがたい。
3. グローバルな不平等 オープンサイエンスのインフラストラクチャ(OSF、APC(論文掲載料)の支払い能力等)へのアクセスにはグローバルな不平等が存在する。大規模共同研究への参加も、先進国の研究室に偏る傾向がある。
4. チェックボックス化のリスク 事前登録やデータ公開が形式的な要件を満たすだけの「チェックボックス」行為に陥り、実質的な透明性の向上に結びつかないリスクがある。事前登録の内容が曖昧であれば、QRPsの抑制効果は限定的となる。
まとめ¶
- 再現性の危機は個人レベル(QRPs)、制度レベル(出版バイアス、publish or perish文化)、認識論レベル(NHSTの形式的運用)の3層にわたる構造的問題であり、単一の原因に帰属できない
- John et al. (2012) の調査は、QRPsが心理学研究者の過半数に蔓延していることを実証的に示した
- COS/OSFの設立、TOPガイドラインの発表、バッジ制度の導入を通じて、オープンサイエンスは2010年代に急速に制度化された
- Many Labs プロジェクト、RP:P、PSAなどの大規模共同研究は、再現性を検証するとともに効果の頑健性と文脈依存性の理解を深めた
- 計算論的・形式的モデリングは、言語的理論の曖昧さという再現性問題の根源的要因に対処する方法論として注目されている
- 改革は相互に補完する複合的構造をなしており、制度的インセンティブの整合性、グローバルな不平等、チェックボックス化のリスクなどの課題が残されている
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 再現性の危機 | replication crisis | 公刊された研究の多くが追試で再現されないという構造的問題 |
| 問題のある研究実践 | questionable research practices; QRPs | 偽陽性率を膨張させる研究行動の総称 |
| 出版バイアス | publication bias | 有意な結果が優先的に出版される体系的傾向 |
| 統計的検定力 | statistical power | 真の効果を正しく検出する確率(1 - β) |
| オープンサイエンス | open science | 研究の透明性・再現可能性を高める運動・実践の総称 |
| TOPガイドライン | Transparency and Openness Promotion Guidelines | 学術雑誌の透明性基準を8領域×3水準で定めたガイドライン |
| Psychological Science Accelerator | Psychological Science Accelerator; PSA | 世界各国の研究室を結ぶ分散型共同研究ネットワーク |
| 大規模共同追試プロジェクト | large-scale collaborative replication project | 多数の研究室が同一研究を共同で追試する国際的プログラム |
| 理論の危機 | theory crisis | 心理学の理論が精密な定量的予測を生成しないという問題 |
| 形式的モデリング | formal modeling | 理論を数学的・計算論的に明示する方法論 |
| ファイル引き出し問題 | file drawer problem | 帰無結果が出版されず未公刊のまま蓄積される問題 |
| 不正の自然選択 | natural selection of bad science | 出版圧力により低品質の研究実践が選択的に増殖する現象 |
確認問題¶
Q1: 再現性の危機の原因を個人レベル、制度レベル、認識論レベルの3層に分けて説明し、これらの層がどのように相互作用して危機を増幅させるかを論じよ。
A1: 個人レベルの原因は、研究者によるQRPs(p-hacking、HARKing、選択的報告)および不十分な標本サイズに基づく研究の実施である。制度レベルの原因は、有意な結果を優先的に出版する出版バイアス、「publish or perish」と称されるキャリア圧力、新奇な知見の過度な重視、追試研究の低い学術的評価である。認識論レベルの原因は、NHSTの形式的・機械的運用、効果量と検定力の軽視、確証的研究と探索的研究の混同である。これら3層は相互に増幅する。制度レベルの出版圧力が個人レベルのQRPsを動機づけ、認識論レベルのNHSTの形式的運用がp-hackingを容易にする。追試の低評価(制度レベル)は偽陽性の知見が訂正されないまま文献に蓄積することを意味し、低検定力の研究(認識論レベル)は効果量の過大推定を招いてさらなる再現の失敗を生む。Smaldino & McElreath (2016) が示したように、これらの相互作用は個人のインセンティブ構造と制度的報酬体系の改革なくして解消されない。
Q2: オープンサイエンスの制度化を推進した具体的な組織・施策を3つ挙げ、それぞれが再現性問題のどの側面に対処するかを説明せよ。
A2: 第一に、Center for Open Science (COS) はOSFを運営し、事前登録・データ公開・研究材料共有の統合的インフラを提供することで、QRPsの抑制と研究プロセスの透明性向上に対処している。第二に、TOPガイドラインは学術雑誌が採用すべき透明性基準を8領域×3水準で体系化し、雑誌レベルでのオープンサイエンス導入の具体的な道筋を示すことで、出版システムの構造的改革に対処している。第三に、Psychological Science誌のオープンサイエンスバッジは、データ公開・材料公開・事前登録にバッジを付与する低コストの介入であり、研究者の行動変容を動機づけることで、個人レベルでのオープンサイエンス実践の普及に対処している。Kidwell et al. (2016) の報告によれば、バッジ導入後のデータ公開率は約3%から約40%へ劇的に増加した。
Q3: Many Labs プロジェクトの系譜(1, 2, 3, 4, 5)が心理学の知識基盤にもたらした貢献を、「再現率」の情報にとどまらない観点から論じよ。
A3: Many Labs プロジェクトの貢献は「何%が再現された」という情報を超えて多岐にわたる。第一に、研究室間変動の推定により、効果の頑健性と文脈依存性を区別する根拠が得られた。Many Labs 1では研究室間変動が全体として小さく、再現の成否は効果自体の特性に依存していた。第二に、効果量の過大推定の程度が定量的に明らかになり、「winner's curse」問題への認識が深まった。第三に、Many Labs 2の186研究室にわたるデータは、WEIRD問題(西洋先進国の標本への偏り)を検討する貴重な資源を提供した。第四に、Many Labs 4は元の著者の監修下でも特定効果(死の顕現性効果)が再現されないことを示し、「追試のプロトコルが不忠実である」という批判に対する反証を提供した。第五に、これらのプロジェクトは大規模共同追試の方法論とインフラを確立し、PSAのような恒常的な共同研究ネットワークの基盤となった。
Q4: 形式的モデリングが再現性問題に対処するメカニズムを、言語的理論の限界と対比しながら説明せよ。
A4: 言語的理論(例:「認知的不協和は態度変容を引き起こす」)は効果の方向を示すが、大きさ、境界条件、時間的動態について定量的予測を与えない。このため、データと理論の適合・不適合の判断が曖昧になり、HARKingや事後的解釈の余地が広がる。形式的モデリングはこの問題に以下のメカニズムで対処する。(1) 数学的に明示された予測は確証と反証が明確であり、HARKingの余地を縮小する。(2) モデルのすべての仮定が数学的構造として明示されるため、暗黙の前提が排除され、追試研究者が理論的枠組みを正確に再現できる。(3) モデル比較(BIC、ベイズファクター等)によりデータとの適合度を定量的に評価でき、p値の閾値のみに依拠した二値的判断を超えられる。(4) パラメータ推定を通じて理論と観測の対応が定量化され、理論の修正・更新が体系的に行える。
Q5: 再現性改革が直面する主要な限界・課題を3点挙げ、それぞれについて具体的な問題状況を説明せよ。
A5: 第一に、制度的インセンティブの整合性の問題がある。事前登録、データ公開、Registered Reportsの実施は研究者個人に追加的な時間と労力を要求するが、採用・昇進の評価において必ずしも報われない。「publish or perish」の圧力が変わらない限り、改革の持続可能性は限定的である。第二に、チェックボックス化のリスクがある。事前登録やデータ公開が形式的な要件充足に留まり、実質的な透明性向上に結びつかない事例が報告されている。事前登録の内容が曖昧であればQRPsの抑制効果は限定的であり、公開されたデータの質や完全性の検証も十分に行われていない場合がある。第三に、グローバルな不平等の問題がある。オープンサイエンスのインフラ(OSF利用のための安定したインターネット環境、OA出版のための論文掲載料)へのアクセスには地理的・経済的不平等が存在し、大規模共同研究への参加も先進国の研究室に偏る傾向がある。改革が先進国中心の科学システムをさらに固定化するリスクへの対処が必要である。