Module 2-4 - Section 4: 研究デザイン¶

セクション情報¶

項目	内容
モジュール	Module 2-4: 心理統計法 II・研究法
前提セクション	なし
想定学習時間	4時間

導入¶

Module 0-1 Section 4では、実験法・相関研究・観察法などの基本的な研究方法を概観し、独立変数・従属変数・剰余変数の区別、無作為割付の論理、「相関は因果を含意しない」という原則を学んだ。本セクションでは、研究デザインの妥当性を体系的に評価する枠組みと、因果推論を支える方法論的道具立てをより深く扱う。

心理学研究の核心的課題は「観察された関係が因果的であると、どの程度の確信をもって主張できるか」にある。この問いに答えるには、研究デザインの妥当性（validity）を多角的に検討しなければならない。Shadish, Cook & Campbell (2002) は妥当性を4つの類型に整理し、研究デザインの評価と改善のための統一的枠組みを提供した。本セクションではこの枠組みを出発点として、交絡変数を統制するための具体的技法、無作為割付が不可能な状況で用いられる準実験デザイン、そして時間的変化を捉える縦断研究のデザインと分析について学ぶ。

妥当性の体系¶

Shadish, Cook & Campbell の4分類¶

William R. Shadish, Thomas D. Cook, Donald T. Campbell (2002) は著書 Experimental and Quasi-Experimental Designs for Generalized Causal Inference において、研究デザインの妥当性を以下の4つに分類した。これは現代の心理学・社会科学における研究デザイン評価の標準的枠組みとなっている。

Key Concept: 内的妥当性（internal validity） 独立変数と従属変数の間に観察された関係が、真に因果的であると推論できる程度。すなわち、従属変数の変動が独立変数の操作によって生じたものであり、他の要因（交絡変数）によるものではないと結論づけられる度合いを指す。因果推論の根幹をなす妥当性である。

Key Concept: 外的妥当性（external validity） 研究で得られた因果的結論が、他の人々（母集団）、他の場面（setting）、他の時期（time）に一般化できる程度。研究結果が特定の実験室条件や標本に限定されず、より広い範囲に適用可能かどうかを問う。

Key Concept: 構成概念妥当性（construct validity） 研究で操作・測定された変数が、理論上の構成概念を適切に反映している程度。独立変数の操作が意図した構成概念を正しく具現化しているか、従属変数の測定が意図した構成概念を正しく捕捉しているかを問う。

Key Concept: 統計的結論妥当性（statistical conclusion validity） 統計分析に基づいて変数間の共変関係について下される結論が妥当である程度。統計的検定力の充足、前提条件の充足、多重比較の補正など、統計的推論の適切さに関わる。

graph TD
    subgraph "Shadish, Cook & Campbell の妥当性4分類"
        IV["内的妥当性<br>因果推論は正しいか"]
        EV["外的妥当性<br>一般化できるか"]
        CV["構成概念妥当性<br>概念の操作化は適切か"]
        SV["統計的結論妥当性<br>統計的推論は適切か"]
    end
    SV -->|"共変関係の確認"| IV
    IV -->|"因果関係の確立"| CV
    IV -->|"因果関係の確立"| EV

この4つの妥当性は相互に関連しているが、独立した評価次元である。ある研究が内的妥当性に優れていても外的妥当性が低い場合（厳密に統制された実験室実験の結果が現実場面で再現されない）や、統計的結論妥当性に問題がある場合（検定力不足により偽陰性や効果量の過大推定が生じる）がある。研究デザインの設計と評価においては、4つの妥当性をバランスよく考慮することが求められる。

内的妥当性への脅威¶

内的妥当性は因果推論の根幹であるため、それを脅かす要因の理解が特に重要である。Campbell & Stanley (1963) 以来整理されてきた主要な脅威要因は以下の通りである。

脅威要因	定義	例
歴史（history）	独立変数の操作と同時期に生じた外的事象が従属変数に影響を及ぼす	教育介入の効果検証中に、社会的に大きな事件が生じて参加者の態度が変化する
成熟（maturation）	時間の経過に伴う参加者自身の内的変化が従属変数に影響する	幼児の言語発達プログラムの効果を検証する際、介入がなくとも自然な発達が進行する
テスト効果（testing）	事前テストの実施自体が事後テストの成績に影響する	事前テストで出題された問題への慣れにより、事後テストの成績が向上する
測定手段の変化（instrumentation）	測定方法や基準が研究途中で変化する	評定者の訓練不足により、後半のデータで評定基準が緩くなる
統計的回帰（regression to the mean）	極端な値を示した参加者が、再測定時に平均に近づく傾向	不安得点が極めて高い者を選抜して介入すると、介入効果がなくとも再測定時に得点が低下する
選択バイアス（selection bias）	群間で参加者の特性が系統的に異なる	自発的にプログラムに参加した群と不参加群を比較すると、動機づけの差が交絡する
脱落（attrition / mortality）	研究途中で参加者が離脱し、残存者の特性に偏りが生じる	治療効果の検証で、症状の重い参加者が脱落し、軽症者だけが残る

これらの脅威は、特に無作為割付を伴わないデザインにおいて深刻となる。無作為割付を行う真の実験（true experiment）では、選択バイアスが確率的に解消され、歴史・成熟・テスト効果なども群間で均等に作用するため、内的妥当性が相対的に高く保たれる。

外的妥当性と生態学的妥当性¶

Key Concept: 生態学的妥当性（ecological validity） 研究の実施条件が日常の実際の環境をどの程度反映しているかの度合い。実験室実験は統制が厳密である一方、人工的な課題や環境が日常生活と乖離しやすく、生態学的妥当性が低い傾向にある。

外的妥当性は、研究結果の一般化可能性を3つの軸で評価する。

人の一般化: 研究で用いた標本から、より広い母集団への一般化が可能か。心理学研究の標本が「WEIRD」（Western, Educated, Industrialized, Rich, Democratic）に偏っているという批判（Henrich, Heine, & Norenzayan, 2010）は、この問題を象徴している。
場面の一般化: 実験室で得られた結果が、日常場面や他の文脈でも成立するか。
時期の一般化: ある時点で得られた結果が、異なる時代や社会状況でも成立するか。

内的妥当性と外的妥当性はしばしばトレードオフの関係にある。厳密に統制された実験室実験は内的妥当性に優れるが、人工的な環境のため外的妥当性（特に生態学的妥当性）が低下しやすい。逆に、自然場面での研究は外的妥当性が高いが、統制が困難なため内的妥当性が低下しやすい。この緊張関係を考慮したうえで、研究目的に応じた最適なバランスを選択することが求められる。

交絡変数の統制法¶

因果推論を確立するうえで、交絡変数（confounding variable）の統制は不可欠である。Module 0-1 Section 4で無作為割付の基本を学んだが、ここではより体系的に統制法を整理する。

無作為割付（randomization）¶

無作為割付は交絡変数の統制法として最も根本的かつ強力な手法である。参加者を各実験条件にランダムに割り当てることで、既知・未知を問わずあらゆる個人差要因が群間で確率的に均衡する。十分な標本サイズが確保されている場合、無作為割付により群間の系統的差異は限りなく小さくなる。

無作為割付が因果推論を支える論理は、以下のように整理できる。もし群間で従属変数に差異が観察されたとき、無作為割付によって群間の個人差要因が均衡しているならば、その差異は独立変数の操作によるものと推論できる（他の代替説明が排除される）。

マッチング（matching）¶

Key Concept: マッチング（matching） 重要な交絡変数について、群間で参加者の特性を等しくする手法。特定の変数（年齢、性別、知能指数など）の値が同等の参加者をペアにし、各ペアの一方を実験群、他方を統制群に割り当てる。既知の交絡変数を統制できるが、マッチングに使用されない未知の交絡変数は統制できない。

マッチングは無作為割付が困難な場合や、特定の変数の影響を確実に統制したい場合に用いられる。たとえば、新しい学習法の効果を検証する際に、IQの影響を統制するためにIQが同等の参加者をペアにして各群に割り当てる。ただし、マッチングの限界として、(1) マッチング変数以外の交絡変数は統制されない、(2) 多数の変数でマッチングしようとするとペアリングが困難になる、(3) 適切なマッチング相手が見つからない参加者は研究から除外される、といった問題がある。

統計的統制（共変量分析 ANCOVA）¶

Key Concept: 共変量分析（ANCOVA: Analysis of Covariance） 交絡変数の影響を統計的に除去する分析手法。交絡の可能性がある変数を共変量（covariate）として分析モデルに投入し、その影響を統計的に調整したうえで、独立変数の効果を検定する。事前テスト得点やデモグラフィック変数の群間差を統計的に補正する際に用いられる。

ANCOVAは研究のデザイン段階ではなく分析段階で交絡変数を統制する方法であり、無作為割付やマッチングを補完する役割を果たす。ただし、ANCOVAの適用には「共変量と独立変数が独立である」「共変量と従属変数の関係が各群で等しい（回帰の等質性の仮定）」等の前提条件があり、準実験デザインで群間に事前差がある場合にはこれらの仮定が満たされないことがある。ANCOVAは万能の解決策ではなく、デザイン段階での統制（無作為割付やマッチング）が優先される。

カウンターバランシング（counterbalancing）¶

Key Concept: カウンターバランシング（counterbalancing） 反復測定デザインにおいて、条件の呈示順序の効果（順序効果・持ち越し効果）を統制する手法。参加者ごとに条件の呈示順序を体系的に変化させることで、順序に起因する交絡を相殺する。

反復測定デザイン（同一参加者が複数条件を経験するデザイン）では、条件の呈示順序が従属変数に影響しうる。たとえば、ストループ課題で一致条件と不一致条件の両方を同一参加者に実施する場合、常に一致条件を先に行うと、練習効果や疲労効果が不一致条件の成績に影響する可能性がある。

カウンターバランシングでは、参加者の半数に「一致→不一致」の順序、残り半数に「不一致→一致」の順序で条件を実施する。これにより、順序効果は両条件に均等に分配され、条件間の差異から順序効果が除去される。条件数が多い場合は、ラテン方格法（Latin square design）を用いて部分的なカウンターバランスを行う。

ブロック化（blocking）¶

Key Concept: ブロック化（blocking） 既知の交絡変数に基づいて参加者をブロック（同質な群）に分け、各ブロック内で無作為割付を行う手法。ブロック化により、ブロック変数の効果を分析から分離でき、誤差分散が縮小して統計的検定力が向上する。

たとえば、教授法の効果を検証する際に、参加者の事前学力（高群・中群・低群）でブロックを作成し、各ブロック内で参加者を教授法A群とB群にランダムに割り当てる。これにより、事前学力の効果は分析で分離され、教授法の純粋な効果をより精確に推定できる。

graph LR
    subgraph "交絡変数の統制法"
        R["無作為割付<br>最も根本的"]
        M["マッチング<br>既知の変数を均衡"]
        A["ANCOVA<br>統計的に調整"]
        CB["カウンターバランシング<br>順序効果を相殺"]
        BL["ブロック化<br>同質群内で無作為割付"]
    end
    subgraph "統制の段階"
        D["デザイン段階"]
        AN["分析段階"]
    end
    R --> D
    M --> D
    CB --> D
    BL --> D
    A --> AN

統制法	統制の対象	段階	長所	短所
無作為割付	既知・未知の全変数	デザイン	最も包括的	常に実施可能とは限らない
マッチング	既知の特定変数	デザイン	特定変数を確実に統制	未知の変数は統制不可
ANCOVA	既知の特定変数	分析	事後的に適用可能	前提条件が厳格
カウンターバランシング	順序効果	デザイン	反復測定に適合	持ち越し効果には限界あり
ブロック化	既知の特定変数	デザイン	検定力が向上	ブロック変数の選択が必要

準実験デザイン¶

準実験の定義と必要性¶

Key Concept: 準実験（quasi-experiment） 独立変数の操作は行うが、参加者の無作為割付を行わない（または行えない）研究デザイン。真の実験（true experiment）との最大の違いは無作為割付の有無にあり、その結果として選択バイアスを完全には排除できず、内的妥当性が相対的に低下する。ただし、適切なデザインと分析により因果推論の妥当性を高めることが可能である。

心理学や教育、公衆衛生などの領域では、無作為割付が倫理的・実際的に不可能な状況が少なくない。たとえば、自然災害の心理的影響を調べるために、参加者を「被災群」に無作為割付することはできない。学校教育の介入研究では、既存のクラス単位で介入群と統制群を設定せざるをえない場合が多い。こうした状況で因果推論を追究するための方法論が準実験デザインである。

非等価統制群デザイン¶

非等価統制群デザイン（nonequivalent control group design）は、準実験デザインの中で最も基本的なものである。既存の集団（たとえば2つのクラス）の一方に介入を行い、他方を統制群とする。無作為割付を行わないため、群間に事前差が存在する可能性がある。

このデザインの基本構造は以下の通りである。

群	事前テスト	介入	事後テスト
介入群	O₁	X	O₂
統制群	O₃	—	O₄

事前テストと事後テストの差分を群間で比較することで、介入効果を推定する。事前テストにより群間の初期差を把握し、ANCOVAなどで統計的に調整できる。ただし、測定されていない交絡変数の群間差は統制できないため、内的妥当性の脅威は完全には排除されない。

中断時系列デザイン¶

Key Concept: 中断時系列デザイン（interrupted time series design） ある介入や政策変更の前後にわたって、同一の従属変数を多数の時点で繰り返し測定するデザイン。介入の時点で系列に「中断」（水準の変化や傾きの変化）が生じるかを検討することで、介入効果を推定する。統制群がなくとも、事前のトレンドからの逸脱として介入効果を評価できる点が特徴である。

中断時系列デザインは、政策評価や公衆衛生の分野で広く用いられている。たとえば、飲酒運転の罰則強化が交通事故死亡者数に与える影響を評価する場合、罰則強化の前後にわたる月別の死亡者数データを分析し、罰則強化の時点で水準やトレンドに変化があるかを検討する。

graph LR
    subgraph "中断時系列デザイン"
        T1["時点1"] --> T2["時点2"] --> T3["時点3"] --> INT["介入"] --> T4["時点4"] --> T5["時点5"] --> T6["時点6"]
    end
    style INT fill:#f96,stroke:#333,stroke-width:2px

このデザインの強みは、事前のトレンド（成熟や歴史などの脅威による傾向）を把握したうえで介入効果を評価できることにある。単純な事前・事後比較では成熟効果と介入効果を区別できないが、事前に複数時点のデータがあれば、自然なトレンドからの逸脱として介入効果を同定できる。一方、介入と同時に生じた他の外的事象（歴史の脅威）による影響を排除しにくいという限界がある。

回帰不連続デザイン¶

Key Concept: 回帰不連続デザイン（regression discontinuity design: RDD） 連続的な割付変数（assignment variable）のカットオフ値に基づいて介入の有無が決定される状況を利用した準実験デザイン。カットオフ付近で介入群と統制群の結果に「不連続」が生じるかを検討することで、因果効果を推定する。適切に実施された場合、無作為化実験に匹敵する内的妥当性が得られることが知られている。

RDDの典型的な場面は、テストの得点に基づいて特別プログラムへの参加が決定される状況である。たとえば、テスト得点が70点未満の生徒に補習授業を実施し、70点以上の生徒には実施しない場合を考える。このとき、68点の生徒と72点の生徒はテスト得点がわずかに異なるだけで、他の特性は類似していると仮定できる。カットオフ（70点）付近で成績の軌跡に不連続な変化（ジャンプ）が見られれば、それは補習授業の因果効果と解釈できる。

RDDは、(1) 割付変数が操作されない（不正にカットオフを超えることがない）、(2) カットオフ付近で割付変数と結果変数の関係が連続的であるという仮定（局所線形性の仮定）が成立する限り、選択バイアスを排除できる。この特性から、準実験デザインの中で最も内的妥当性の高いデザインの一つと評価されている。

因果推論の強さの階層¶

研究デザインの種類によって、因果推論の確信度は異なる。以下に、一般的な因果推論の強さの階層を示す。

graph TD
    RCT["無作為化実験（RCT）<br>因果推論の強さ: 最高"] --> RDD2["回帰不連続デザイン<br>因果推論の強さ: 高"]
    RDD2 --> ITS["中断時系列デザイン<br>因果推論の強さ: 中〜高"]
    ITS --> NECG["非等価統制群デザイン<br>因果推論の強さ: 中"]
    NECG --> CORR["相関研究<br>因果推論: 不可"]

ただし、この階層は一般的な傾向を示すものであり、具体的な研究の内的妥当性はデザインの実施の質（測定の精度、統制の適切さ、分析の妥当性）に大きく依存する。質の低い無作為化実験が、質の高い準実験デザインに劣ることもありうる。

縦断研究のデザインと分析¶

横断研究と縦断研究¶

研究において時間軸をどのように扱うかは、研究デザインの根本的な選択である。

デザイン	特徴	長所	短所
横断研究（cross-sectional）	一つの時点で異なる集団を比較	効率的・低コスト	年齢差とコホート差の区別不可
縦断研究（longitudinal）	同一集団を複数時点にわたり追跡	個人内変化の追跡が可能	時間・コスト大、脱落問題
コホート系列デザイン（cohort-sequential）	異なるコホートを複数時点で追跡	年齢・コホート・時代効果の分離	最もコスト大・複雑

横断研究は1回の測定で済むため効率的であるが、たとえば20歳群と60歳群の認知機能を同時点で比較しても、それが加齢による変化なのか、世代差（教育環境、栄養状態などのコホート効果）なのかを区別できない。この混同を解消するために、同一個人を時間経過とともに追跡する縦断研究が必要となる。

コホート系列デザイン¶

Key Concept: コホート系列デザイン（cohort-sequential design） 異なる出生コホートを同時に追跡調査するデザイン。年齢効果（加齢に伴う変化）、コホート効果（世代による差異）、時代効果（測定時点固有の社会的影響）の分離を可能にする。K. Warner Schaieのシアトル縦断研究はこのデザインの代表例であり、成人の知能の加齢変化が横断研究で過大推定されていたことを明らかにした。

コホート系列デザインの構造を、以下の表で示す。

	測定時点2000年	測定時点2010年	測定時点2020年
1980年生まれコホート	20歳	30歳	40歳
1970年生まれコホート	30歳	40歳	50歳
1960年生まれコホート	40歳	50歳	60歳

同一年齢（たとえば40歳）のデータが異なるコホート・異なる時点で得られるため、年齢効果・コホート効果・時代効果を統計的に分離できる（完全な分離には数学的な制約があるものの、大幅な改善が可能である）。

パネルデータの分析¶

縦断研究で得られる、同一個人を複数時点で測定したデータをパネルデータ（panel data）と呼ぶ。パネルデータの分析には、個人内の変化（成長・変動のパターン）を記述・説明するための専用の統計モデルが用いられる。

成長曲線モデル（growth curve model）は、マルチレベルモデル（階層線形モデル: HLM）の枠組みで、各個人の時間的変化の軌跡を推定する手法である。レベル1で個人内の時間的変化を記述し（たとえば、時間とともに抑うつ得点がどのように変化するか）、レベル2で個人間の変化の違いを説明する（たとえば、ソーシャルサポートの水準が抑うつ得点の変化率に影響するか）。

潜在成長曲線モデル（latent growth curve model: LGCM）は、構造方程式モデリング（SEM）の枠組みで成長曲線を推定する手法である。各個人の変化の初期値（intercept）と変化率（slope）を潜在変数として推定し、それらの分散（個人差の存在）や他の変数との関連を検討できる。成長曲線モデルとLGCMは数学的にはほぼ等価であるが、LGCMはSEMの枠組みに統合されるため、複数の成長軌跡間の関連（たとえば、認知機能の変化と抑うつの変化の共変動）や、モデルの適合度評価が容易である。

graph TD
    subgraph "縦断データの分析手法"
        GCM["成長曲線モデル<br>（マルチレベルモデル）"]
        LGCM2["潜在成長曲線モデル<br>（SEM枠組み）"]
    end
    subgraph "推定するもの"
        INT2["初期値（intercept）<br>各個人の開始時の水準"]
        SLP["変化率（slope）<br>各個人の変化の速さ"]
        VAR["分散<br>個人差の大きさ"]
    end
    GCM --> INT2
    GCM --> SLP
    LGCM2 --> INT2
    LGCM2 --> SLP
    INT2 --> VAR
    SLP --> VAR

縦断研究における脱落とその対処¶

縦断研究の最大の方法論的課題は、研究期間中の参加者の脱落（attrition）である。長期にわたる研究では、転居、研究への関心の喪失、健康状態の悪化などの理由で参加者が離脱する。脱落が無作為に生じるのであれば（すなわち、脱落するかどうかが研究で測定している変数と無関連であれば）、統計的検定力の低下は生じるが推定のバイアスは生じない。しかし、多くの場合、脱落は無作為ではない。

脱落のパターンは、以下のように分類される。

完全にランダムな欠測（MCAR: Missing Completely At Random）: 欠測の発生がいかなる変数とも無関連。最も強い仮定であり、現実には稀。
ランダムな欠測（MAR: Missing At Random）: 欠測の発生が観測された変数によって説明可能。たとえば、男性のほうが脱落しやすいが、性別を統制すれば欠測は無作為。
ランダムでない欠測（MNAR: Missing Not At Random）: 欠測の発生が欠測値自体に依存。たとえば、抑うつ得点が高い者ほど脱落しやすく、その高い得点が欠測になる。

MARの仮定のもとでは、以下の手法が有効である。

最尤推定法（maximum likelihood estimation）: 観測されたデータの尤度を最大化してパラメータを推定する。欠測を含むケースも分析に寄与する。
多重代入法（multiple imputation）: 欠測値を統計モデルに基づいて複数回補完し、補完されたデータセットそれぞれで分析を行い、結果を統合する。

MNARの場合、これらの手法でもバイアスが残りうるため、感度分析（sensitivity analysis）により、結果がMNARの仮定のもとでどの程度変化するかを検討することが推奨される。

まとめ¶

Shadish, Cook & Campbell (2002) の妥当性4分類（内的妥当性、外的妥当性、構成概念妥当性、統計的結論妥当性）は、研究デザインを多角的に評価する枠組みである
内的妥当性への脅威（歴史、成熟、テスト効果、統計的回帰、選択バイアス、脱落など）を理解し、これらを統制するデザインを選択することが因果推論の基盤となる
交絡変数の統制法には、無作為割付、マッチング、ANCOVA、カウンターバランシング、ブロック化があり、それぞれ適用場面と限界が異なる
無作為割付が不可能な場合、準実験デザイン（非等価統制群デザイン、中断時系列デザイン、回帰不連続デザイン）により因果推論の妥当性を高めることが可能である
縦断研究は個人内変化の追跡を可能にするが、脱落の問題が方法論的課題となる。成長曲線モデルや潜在成長曲線モデルにより、変化のパターンを統計的に記述・説明できる
次セクション（Section 5）では、本セクションで扱った方法論的基盤の上に立ち、再現性の危機とその対策、ベイズ統計、オープンサイエンスなど現代心理学の方法論的改革を扱う

用語集（Glossary）¶

用語	英語表記	定義
内的妥当性	internal validity	独立変数と従属変数の関係が真に因果的であると推論できる程度
外的妥当性	external validity	研究結果が他の人々・場面・時期に一般化できる程度
構成概念妥当性	construct validity	操作・測定された変数が理論上の構成概念を適切に反映している程度
統計的結論妥当性	statistical conclusion validity	統計分析に基づく共変関係の結論が妥当である程度
生態学的妥当性	ecological validity	研究条件が日常の実際環境を反映している程度
マッチング	matching	交絡変数について群間で参加者の特性を等しくする手法
共変量分析	ANCOVA	交絡変数の影響を統計的に調整する分析手法
カウンターバランシング	counterbalancing	条件の呈示順序効果を相殺するために順序を系統的に変化させる手法
ブロック化	blocking	既知の変数に基づいて同質群を作り、群内で無作為割付を行う手法
準実験	quasi-experiment	独立変数を操作するが無作為割付を行わない研究デザイン
中断時系列デザイン	interrupted time series design	介入前後の多時点データで系列の変化を検討するデザイン
回帰不連続デザイン	regression discontinuity design	カットオフ値に基づく割付を利用して因果効果を推定するデザイン
コホート系列デザイン	cohort-sequential design	異なるコホートを同時に追跡し年齢・コホート・時代効果を分離するデザイン
潜在成長曲線モデル	latent growth curve model	SEM枠組みで個人の変化の初期値と変化率を潜在変数として推定する手法
多重代入法	multiple imputation	欠測値を統計モデルで複数回補完し結果を統合する手法

確認問題¶

Q1: Shadish, Cook & Campbell (2002) の妥当性4分類を列挙し、それぞれが「何を問うているか」を簡潔に説明せよ。

A1: (1) 内的妥当性: 観察された変数間の関係が真に因果的であるかを問う。(2) 外的妥当性: 得られた因果的結論が他の人々・場面・時期に一般化可能かを問う。(3) 構成概念妥当性: 研究で操作・測定された変数が理論上の構成概念を適切に反映しているかを問う。(4) 統計的結論妥当性: 統計分析に基づく変数間の共変関係に関する結論が適切かを問う。これらは独立した評価次元であり、研究デザインの包括的な評価にはすべてを考慮する必要がある。

Q2: 教育介入の効果を非等価統制群デザインで検証する場合、内的妥当性を脅かす主要な要因を3つ挙げ、それぞれについて対処法を述べよ。

A2: 第一に、選択バイアスがある。無作為割付を行わないため、介入群と統制群の参加者特性が系統的に異なりうる。事前テストの実施とANCOVAによる統計的調整で部分的に対処できるが、測定されていない変数の差は統制できない。第二に、成熟がある。研究期間中に参加者が自然に発達・変化する可能性があり、介入効果と区別が困難になる。統制群との比較により成熟効果を推定し分離することで対処する。第三に、歴史の脅威がある。介入期間中に生じた外的事象が従属変数に影響しうる。統制群も同一時期に測定することで、歴史の効果が両群に均等に作用することを確保し、群間比較で歴史の脅威を相殺する。

Q3: 回帰不連続デザイン（RDD）が準実験デザインの中で特に内的妥当性が高いとされる理由を、カットオフ付近の論理に基づいて説明せよ。

A3: RDDでは、連続的な割付変数のカットオフ値に基づいて介入の有無が決定される。カットオフ付近の参加者は割付変数の値がわずかに異なるだけであり、他の特性（動機づけ、能力、背景要因など）はほぼ同質であると仮定できる。したがって、カットオフの上下で結果変数に不連続な変化（ジャンプ）が観察されれば、それは割付変数の連続的な影響では説明できず、介入の因果効果と推論できる。この論理は、カットオフ付近で「局所的な無作為化」に近い状態が実現されることに基づいており、割付変数が操作されず（不正にカットオフを超えることがなく）、カットオフ付近で割付変数と結果変数の関係が連続的であるという仮定が成立する限り、選択バイアスを排除した因果推論が可能となる。

Q4: ある研究者が、中年期の社会的孤立と認知機能の低下の関連を検証するために縦断研究を計画している。この研究で生じうる脱落バイアスの問題と、その対処法を説明せよ。

A4: この研究では、認知機能が低下した参加者ほど追跡調査に応じられなくなる（テストの実施が困難になる、施設入所する、死亡するなど）可能性が高い。これはMNAR（欠測値自体に依存する欠測）の典型例であり、認知機能の低い者が選択的に脱落する結果、残存者の認知機能は実際の集団より高く推定され、社会的孤立と認知機能低下の関連が過小推定されるバイアスが生じる。対処法として、(1) MAR仮定のもとで最尤推定法や多重代入法を用いて欠測データを適切に扱う、(2) 脱落者と残存者の特性を比較し脱落のパターンを分析する、(3) MNAR仮定を含む感度分析を実施し、結果のロバストネスを検討する、(4) 脱落を最小化するための追跡方策（定期的な連絡、インセンティブの提供、訪問調査の併用など）を設計段階で講じる、ことが有効である。

Q5: カウンターバランシングとブロック化は、いずれも交絡変数の統制法であるが、適用される場面と統制のメカニズムが異なる。両者の違いを説明せよ。

A5: カウンターバランシングは反復測定デザイン（同一参加者が複数条件を経験するデザイン）において、条件の呈示順序が従属変数に及ぼす影響（順序効果）を統制する手法であり、参加者ごとに条件の順序を系統的に変えることで順序効果を相殺する。一方、ブロック化は参加者間デザインにおいて、既知の交絡変数（事前学力、年齢など）に基づいて参加者を同質なブロックに分け、各ブロック内で無作為割付を行う手法である。ブロック化はブロック変数の効果を分析から分離して誤差分散を縮小し、統計的検定力を向上させる。すなわち、カウンターバランシングは個人内要因（順序効果）を、ブロック化は個人間要因（既知の交絡変数）をそれぞれ統制するものであり、適用場面が本質的に異なる。