Module 0-1 - Section 4: 研究方法の基礎¶

セクション情報¶

項目	内容
モジュール	Module 0-1: 心理学概論
前提セクション	Section 1: 心理学とは何か
想定学習時間	3〜4時間

導入¶

Section 1で確認したとおり、心理学は科学的方法に基づく学問であり、操作的定義と反証可能性を核とした仮説検証の手続きを採用する。しかし、「科学的方法」と一口に言っても、心理学が用いる研究手法は多岐にわたる。実験室で変数を厳密に統制する実験法、日常場面を自然に観察する観察法、大規模な標本から傾向を把握する調査法、個人の内面に深く迫る面接法など、研究の目的と対象によって最適な方法は異なる。

本セクションでは、心理学研究で用いられる主要な研究方法の特徴・利点・限界を理解し、研究倫理の基本原則を学ぶ。さらに、近年心理学が直面している再現性の危機（replication crisis）について概観し、科学としての心理学が抱える課題と、それに対する取り組みを把握する。

実験法¶

因果関係の特定を目指す方法¶

実験法（experimental method）は、心理学において因果関係を検証するための最も基本的かつ強力な研究手法である。研究者がある条件を意図的に操作し、その操作が結果にどのような影響を及ぼすかを測定することで、「AがBを引き起こす」という因果的推論が可能になる。

実験法の基本構造を理解するには、3つの変数概念を把握する必要がある。

Key Concept: 独立変数（independent variable） 研究者が意図的に操作する変数。実験における「原因」に相当し、その変化が従属変数にどのような影響を及ぼすかを検証する。実験条件の違いそのものが独立変数である。

Key Concept: 従属変数（dependent variable） 独立変数の操作の結果として測定される変数。実験における「結果」に相当する。独立変数の変化に「従属して」値が変動するかどうかが検証の焦点となる。

Key Concept: 剰余変数（confounding variable） 独立変数以外に従属変数に影響を及ぼしうる変数。統制されない剰余変数が存在すると、従属変数の変動が独立変数によるものか剰余変数によるものか区別できなくなり、因果推論が成立しない。交絡変数とも呼ばれる。

ストループ実験に見る実験デザイン¶

実験法の構造を、John Ridley Stroop（1935）によるストループ実験を例に説明する。

ストループ実験では、参加者に色のついた文字列を提示し、文字の意味ではなくインクの色を声に出して答えるよう求める。このとき、提示される刺激には2つの条件がある。

一致条件（congruent condition）: インクの色と文字の意味が一致する（例: 赤色のインクで書かれた「赤」）
不一致条件（incongruent condition）: インクの色と文字の意味が不一致である（例: 青色のインクで書かれた「赤」）

この実験デザインにおいて、各変数は以下のように対応する。

要素	対応する変数
刺激条件（一致 / 不一致）	独立変数
色名を答えるまでの反応時間	従属変数
参加者の年齢、視力、言語能力など	剰余変数（統制が必要）

結果として、不一致条件では一致条件に比べて反応時間が有意に長くなることが示された。これがストループ効果（Stroop effect）であり、文字の読みという自動的処理が色命名という制御的処理と干渉することを示す現象である。この実験が因果推論を可能にしているのは、研究者が独立変数（刺激条件）を操作し、剰余変数を統制したうえで従属変数（反応時間）を測定しているからである。

無作為割付と統制¶

Key Concept: 無作為割付（random assignment） 実験参加者を各条件群（実験群・統制群）にランダムに割り当てる手続き。これにより、個人差（性格、能力、動機づけなど）が各群に均等に分布し、剰余変数の影響を確率的に均衡させることができる。無作為割付は真の実験（true experiment）の必要条件である。

無作為割付が重要なのは、群間に系統的な差異が生じることを防ぐためである。たとえば、ある学習法の効果を検証する実験で、意欲の高い参加者ばかりが実験群に配置されてしまうと、結果の差が学習法によるものか意欲の差によるものか判別できなくなる。無作為割付により、こうした個人差要因が各群に均等に分散する確率が高まる。

実験法の強みは因果推論が可能であることだが、限界もある。実験室という人工的な環境で得られた結果が日常場面にそのまま適用できるか（生態学的妥当性）、倫理的に実験操作が許容されるか（研究倫理上の制約）という問題は常に考慮されなければならない。

graph TD
    subgraph "実験法の基本構造"
        IV["独立変数<br>研究者が操作"]
        DV["従属変数<br>測定される結果"]
        CV["剰余変数<br>統制が必要"]
        RA["無作為割付"]
    end

    IV -->|"因果的影響"| DV
    CV -->|"潜在的影響"| DV
    RA -->|"剰余変数の均衡化"| CV

相関研究と因果推論の限界¶

相関研究とは¶

Key Concept: 相関研究（correlational study） 2つ以上の変数間の関連性（共変関係）を測定・分析する研究手法。変数の操作は行わず、自然に生じた変動を測定する。変数間の関連の方向（正の相関・負の相関）と強さを相関係数によって数値化するが、因果関係の特定はできない。

相関研究は、実験法とは対照的に、研究者が変数を操作しない。既に存在する変数間の関係を測定し、記述する方法である。たとえば、「自尊感情の高さと学業成績の間に正の相関がある」という知見は、相関研究によって得られる。

相関研究が用いられる典型的な場面は以下の通りである。

倫理的に実験操作が不可能な場合: 児童虐待の影響を調べるために、参加者を「虐待群」に無作為に割り当てることはできない
実際的に操作が困難な場合: 社会経済的地位、性別、文化的背景などの変数は操作できない
大規模な傾向を把握する場合: 数万人規模の調査データから変数間の関連を探る場合

相関と因果の混同¶

相関研究の最も重要な限界は、相関関係から因果関係を導出できないことである。「AとBに相関がある」からといって、「AがBの原因である」とは言えない。この原則を「相関は因果を含意しない（correlation does not imply causation）」という。

この問題を日常的な例で説明する。夏季において、アイスクリームの売上と水難事故の件数には強い正の相関がある。しかし、「アイスクリームの消費が水難事故を引き起こす」と結論づけるのは明らかに誤りである。両者の共変は、気温という第三変数（交絡変数）によって説明される。気温が上昇するとアイスクリームの消費が増え、同時に水泳や水辺の活動が増えて水難事故も増加する。

相関関係から因果関係を推論できない理由は、主に以下の3つである。

第三変数問題: 測定されていない第三の変数が、2つの変数の両方に影響している可能性がある（上記のアイスクリームの例）
因果の方向性の不確定: AがBの原因か、BがAの原因か、あるいは相互に影響しているかを特定できない
偶然の一致: 統計的に有意な相関が、理論的に無意味な偶然の産物である場合がある

記述的研究方法¶

観察法¶

観察法（observational method）は、研究対象の行動を直接観察し、記録する方法である。実験法のように変数を操作せず、対象が自然に示す行動をありのままに記述する。

観察法はさらにいくつかの下位分類に分けられる。

自然観察法（naturalistic observation）: 対象者の日常環境で、研究者の介入を最小限にして行動を観察する。生態学的妥当性が高いが、観察者の存在が行動に影響を及ぼす可能性（観察者効果）がある
参与観察法（participant observation）: 研究者自身が集団の一員として参加しながら観察を行う。内部者としての視点を得られるが、客観性の維持が困難になりうる
構造化観察法（structured observation）: あらかじめ定義された行動カテゴリに基づき、特定の行動の出現頻度や持続時間を系統的に記録する。数量化が容易だが、あらかじめ定義されていない行動は見落とされる

調査法¶

調査法（survey method）は、質問紙やオンラインフォームを用いて、多数の参加者から自己報告データを収集する方法である。大規模な標本に対して効率的にデータ収集が可能であり、態度、信念、行動頻度など広範な心理的変数を測定できる。

調査法の利点は、短時間で大量のデータを収集できること、匿名性の確保により回答の正直さを促進できることにある。一方、限界としては、社会的望ましさバイアス（socially desirable responding）によって回答が歪む可能性、質問の文言が回答に影響を及ぼす可能性（質問文効果）、自己報告の正確性に限界があることなどが挙げられる。

面接法¶

面接法（interview method）は、研究者が参加者と直接対話し、口頭で回答を得る方法である。以下の3つに大別される。

構造化面接（structured interview）: あらかじめ定められた質問項目を一定の順序で尋ねる。回答の比較可能性が高い
半構造化面接（semi-structured interview）: 基本的な質問項目は設定するが、回答に応じて柔軟に質問を追加・変更する
非構造化面接（unstructured interview）: 事前に定められた質問項目をもたず、自由な対話の中で情報を収集する。深い探索が可能だが、体系的な比較が困難である

面接法の強みは、回答の背景にある動機や文脈を深く探索できることにある。非言語的手がかり（表情、声のトーン、間の取り方など）も情報源となる。ただし、面接者の態度や質問の仕方が回答に影響を及ぼす面接者効果や、データの分析・解釈における主観性が問題になりうる。

研究方法の比較¶

graph LR
    subgraph "研究方法の分類"
        EXP["実験法"]
        COR["相関研究"]
        OBS["観察法"]
        SUR["調査法"]
        INT["面接法"]
    end

    subgraph "特性"
        CAUSE["因果推論が可能"]
        DESC["記述・関連の把握"]
        DEPTH["深い質的理解"]
    end

    EXP --> CAUSE
    COR --> DESC
    OBS --> DESC
    SUR --> DESC
    INT --> DEPTH

研究方法	主な目的	因果推論	生態学的妥当性	データの量
実験法	因果関係の検証	可能	低〜中	中
相関研究	変数間の関連の測定	不可	中〜高	大
自然観察法	自然場面の行動記述	不可	高	小〜中
調査法	態度・信念の大規模把握	不可	中	大
面接法	個人の深い理解	不可	中〜高	小

研究倫理¶

なぜ研究倫理が必要か¶

心理学研究は人間の行動と心的過程を対象とするため、研究参加者の権利と福利を保護する倫理的枠組みが不可欠である。心理学の歴史には、研究参加者に深刻な心理的苦痛を与えた研究が複数存在し、それらへの反省が現在の倫理基準の基盤となっている。

研究倫理の歴史的転換点¶

心理学における研究倫理の確立に大きな影響を与えた2つの研究がある。

Stanley Milgramの服従実験（1961-1963年）

Milgramは権威への服従をテーマとした実験を実施した。参加者は「学習実験」に協力するよう求められ、別の参加者（実際には実験協力者であるサクラ）が誤答するたびに電気ショックを与えるよう指示された。電気ショックの強度は回ごとに増加し、最大で450ボルトに達した（実際には電気ショックは流れていない）。驚くべきことに、参加者の約65%が最大電圧まで電気ショックを投与した。

この実験の倫理的問題は以下の点にある。

参加者への重大な欺瞞（実験の真の目的、電気ショックが偽物であること）
参加者が経験した極度の心理的苦痛（発汗、震え、泣きなどの深刻なストレス反応）
実験中の撤退の自由が実質的に制約されていた（「続けなければなりません」という権威的指示）

Philip Zimbardoのスタンフォード監獄実験（1971年）

Zimbardoは、スタンフォード大学の地下室に模擬監獄を設置し、健康な男子大学生を無作為に「看守」と「囚人」に割り当てた。計画では2週間の実験予定であったが、看守役の参加者が次第に暴力的・支配的な行動を示し、囚人役の参加者に深刻な心理的危機（情動的崩壊、抑うつ）が生じたため、6日間で実験は中止された。

この実験の倫理的問題は以下の点にある。

参加者が経験する心理的苦痛の程度を事前に十分予測・説明できなかった
実験中に参加者の苦痛が明白であったにもかかわらず、迅速な中止判断がなされなかった
十分なディブリーフィングが数年間実施されなかった

現代の研究倫理基準¶

これらの研究への反省を経て、アメリカ心理学会（APA）は包括的な倫理綱領（Ethical Principles of Psychologists and Code of Conduct）を策定し、改訂を重ねてきた。現代の心理学研究における主要な倫理原則は以下の通りである。

Key Concept: インフォームド・コンセント（informed consent） 研究参加者に対し、研究の目的、手続き、予想されるリスクと利益、参加の自発性、撤退の自由について十分に説明し、理解を得たうえで自発的な同意を取得する手続き。参加者は理解可能な言語で説明を受ける権利を有し、いつでも不利益なく参加を中止できる。

Key Concept: ディブリーフィング（debriefing） 研究終了後に、参加者に対して研究の真の目的、使用された手続きの意味、欺瞞が用いられた場合はその内容と理由を説明する手続き。参加者が研究参加によって受けた心理的影響を軽減し、研究への理解を促進する役割をもつ。

その他の重要な倫理原則として、以下が挙げられる。

危害の最小化: 参加者が経験するリスクを最小限に抑え、予想されるリスクが研究の学術的価値に見合うものであることを確認する
秘密保持: 参加者の個人情報と回答データの機密性を保持する
撤退の自由: 参加者はいつでも不利益を受けることなく研究への参加を中止できる
欺瞞の制限: 研究に欺瞞を用いる場合、他に代替手段がないこと、研究の科学的価値が十分であること、研究終了後に完全なディブリーフィングを行うことが条件となる
倫理審査委員会（IRB: Institutional Review Board）: 研究開始前に、独立した委員会が研究計画の倫理的妥当性を審査する制度

再現性の危機¶

問題の発端¶

Key Concept: 再現性の危機（replication crisis） 公刊された心理学研究の多くが、独立した研究者による追試で元の結果を再現できないという問題。2010年代に大規模な追試プロジェクトによって実証的に明らかとなり、心理学の方法論的基盤に対する信頼を揺るがす事態となった。

2015年、Open Science Collaboration（OSC）は Science 誌に画期的な論文を発表した。この研究では、主要な心理学雑誌3誌に掲載された100本の研究について、元の研究者の協力を得ながら大規模な追試を実施した。結果は衝撃的であった。

元の研究の 97% で統計的に有意な結果が得られていたのに対し、追試で有意な結果が得られたのは 36% にとどまった
追試で得られた効果量は、平均して元の研究の半分であった
認知心理学領域の追試成功率は約50%であったのに対し、社会心理学領域では約25%にとどまった

再現性の危機の原因¶

再現性の危機が生じた背景には、複合的な原因がある。

出版バイアス（publication bias）

学術雑誌が統計的に有意な結果（陽性結果）を優先的に掲載し、有意でない結果（陰性結果）が公刊されにくい傾向を出版バイアスという。この構造的偏りにより、実際には再現されない偽陽性の結果が文献に蓄積されやすくなる。

疑わしい研究実践（Questionable Research Practices: QRPs）

出版バイアスへの適応として、有意な結果を得るための不適切な研究実践が蔓延した。代表的なQRPsは以下の通りである。

p-hacking: データの分析方法を試行錯誤し、統計的に有意な結果（p < .05）が得られるまで分析を繰り返す行為。外れ値の恣意的な除外、分析対象の従属変数の事後的な変更、データ収集の中途での統計的検定の実施などが含まれる
HARKing（Hypothesizing After the Results are Known）: データ分析の結果を見た後に、あたかも事前に立てた仮説であるかのように報告する行為
選択的報告: 有意な結果のみを報告し、有意でなかった分析結果を隠蔽する行為

検定力の不足

多くの心理学研究が、効果を検出するのに十分な標本サイズを確保しておらず、統計的検定力（statistical power）が不足していた。検定力が低い研究は、真の効果を見逃す確率が高いだけでなく、偶然有意になった結果が真の効果を過大評価している可能性も高くなる。

再現性の危機への対策¶

再現性の危機を受けて、心理学界では以下のような構造的改革が進められている。

事前登録（pre-registration）: 研究開始前に、仮説、分析計画、標本サイズの決定根拠などを公開データベースに登録する。これによりHARKingやp-hackingを抑制できる
登録報告（Registered Reports）: 研究の計画段階で査読を行い、結果にかかわらず掲載を保証する出版形式。結果の方向に依存しない審査により、出版バイアスを軽減する
オープンサイエンス: データ、分析コード、実験材料の公開を推進し、研究の透明性と検証可能性を高める
大規模追試プロジェクト: ManyLabs等の国際共同追試により、効果の頑健性を多数の研究室で検証する

再現性の危機をめぐる論争¶

再現性の危機の深刻さについては、研究者間で評価が分かれている。一方では、OSC（2015）の結果は心理学研究の信頼性に対する深刻な警告であり、方法論的改革が急務であるとの立場がある。他方では、追試の成功率が低い理由として、元の研究と追試の間の文脈的差異（参加者集団、文化、時期の違い）が十分に考慮されていないとの批判もある。また、追試の結果自体が偽陰性を含みうるとの指摘もある。

いずれにせよ、再現性の危機は心理学における方法論的自己省察を促し、事前登録、オープンサイエンス、大規模追試といった構造的改善をもたらした。これらは「危機」が生んだ肯定的な変化として広く評価されている。

まとめ¶

心理学の研究方法には、実験法、相関研究、観察法、調査法、面接法などがあり、それぞれ固有の強みと限界をもつ
実験法は独立変数の操作と無作為割付により因果推論を可能にする唯一の方法であるが、生態学的妥当性や倫理的制約に注意が必要である
相関研究は変数間の関連を明らかにするが、第三変数問題や因果の方向性の不確定により、因果推論には用いることができない
心理学の研究倫理は、Milgram実験やスタンフォード監獄実験などの歴史的事例への反省を経て確立され、インフォームド・コンセント、ディブリーフィング、倫理審査委員会が中核的制度となっている
再現性の危機は、出版バイアス、QRPs、検定力不足などの構造的問題に起因し、事前登録やオープンサイエンスなどの改革を促進した
研究方法と研究倫理の理解は、心理学の知見を批判的に評価する基盤として不可欠である

（→ Module 0-2以降では、各心理学領域の個別的な研究パラダイムについてより詳細に扱う）

用語集（Glossary）¶

用語	英語表記	定義
独立変数	independent variable	研究者が意図的に操作する変数。実験における「原因」に相当する
従属変数	dependent variable	独立変数の操作の結果として測定される変数。実験における「結果」に相当する
剰余変数	confounding variable	独立変数以外に従属変数に影響を及ぼしうる変数。交絡変数とも呼ばれる
無作為割付	random assignment	実験参加者を各条件群にランダムに割り当てる手続き
相関研究	correlational study	2つ以上の変数間の関連性を操作なしに測定・分析する研究手法
インフォームド・コンセント	informed consent	研究の目的・手続き・リスクを説明し、自発的な参加同意を得る手続き
ディブリーフィング	debriefing	研究終了後に真の目的や手続きの意味を参加者に説明する手続き
再現性の危機	replication crisis	公刊された研究結果の多くが追試で再現できないという問題
出版バイアス	publication bias	学術雑誌が有意な結果を優先的に掲載する傾向
p-hacking	p-hacking	有意な結果を得るために分析方法を試行錯誤する不適切な研究実践
HARKing	HARKing	データ分析後に事前仮説であるかのように仮説を報告する行為
事前登録	pre-registration	研究開始前に仮説・分析計画を公開データベースに登録する手続き

確認問題¶

Q1: 独立変数、従属変数、剰余変数の3つの概念を、具体的な研究例を1つ挙げて説明せよ。

A1: たとえば「背景音楽の有無が記憶課題の成績に及ぼす影響」を検証する実験を考える。独立変数は「背景音楽の有無」（研究者が操作する条件）、従属変数は「記憶課題の正答数」（測定される結果）、剰余変数は「参加者の知能水準、課題への動機づけ、実験時の疲労度」などである。剰余変数は無作為割付や実験手続きの標準化によって統制される。

Q2: 相関研究から因果関係を推論できない理由を、第三変数問題を用いて説明せよ。

A2: 相関研究では変数を操作しないため、観察された共変関係の背後に測定されていない第三の変数が存在する可能性を排除できない。たとえば、テレビ視聴時間と学業成績の間に負の相関が見出されても、「テレビが学業成績を下げる」とは断言できない。家庭の社会経済的環境という第三変数が、テレビ視聴時間の増加と学業支援の不足の双方に影響している可能性がある。因果推論のためには、独立変数の操作と無作為割付を伴う実験法が必要である。

Q3: Milgram実験が現代の研究倫理基準のどの原則に違反しているかを、少なくとも3つ挙げて説明せよ。

A3: 第一に、インフォームド・コンセントの原則に違反している。参加者は実験の真の目的（権威への服従の研究）を知らされず、電気ショックが偽物であることも告げられなかった。第二に、危害の最小化の原則に違反している。参加者は極度の心理的苦痛（発汗、震え、情動的動揺）を経験した。第三に、撤退の自由が実質的に制限されていた。実験者は「続けなければなりません」という段階的な指示を行い、参加者の中止意思に対して圧力をかけた。

Q4: Open Science Collaboration（2015）の追試プロジェクトの主要な知見を述べ、その結果が心理学にもたらした影響について論じよ。

A4: OSC（2015）は主要心理学雑誌の100研究を追試し、元の研究で97%が有意であったのに対し追試で有意な結果が得られたのは36%にとどまること、効果量は平均して元の半分に減少すること、社会心理学（約25%）より認知心理学（約50%）の追試成功率が高いことを示した。この結果は心理学に大きな影響を及ぼした。方法論的改革として、事前登録や登録報告の普及、オープンサイエンス運動の加速、大規模追試プロジェクトの推進が進んだ。同時に、p-hackingやHARKingなどのQRPsへの問題意識が高まり、研究実践の透明性向上が求められるようになった。

Q5: ある研究者が「スマートフォン使用時間が長い高校生ほど、抑うつ傾向が高い」という調査結果を得た。この結果から「スマートフォンの使用が抑うつを引き起こす」と結論づけることの問題点を、研究方法論の観点から説明せよ。

A5: この調査は相関研究であり、因果推論の3つの障壁が存在する。第一に、第三変数問題として、社会的孤立、家庭環境、学業ストレスなどの変数がスマートフォン使用時間と抑うつの両方に影響している可能性がある。第二に、因果の方向性が不確定であり、抑うつ傾向が先行してスマートフォンへの逃避的使用を促している可能性もある（逆の因果方向）。第三に、自己報告データに基づく調査法はスマートフォン使用時間の過少・過大報告や社会的望ましさバイアスの影響を受ける。因果関係の検証には、スマートフォン使用時間を実験的に操作する研究（使用制限の実験など）や、時間的な先行関係を追跡する縦断的研究が必要である。