Module 2-6 - Section 2: 定量的方法と因果推論の現代的手法¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 2-6: 政治学方法論 |
| 前提セクション | Section 1: 科学的方法と研究デザイン |
| 想定学習時間 | 4時間 |
導入¶
Section 1では、因果推論の基礎として反事実的枠組み(Rubin因果モデル)を導入し、選択バイアスと交絡変数が因果効果の推定を困難にすることを確認した。本セクションでは、これらの障害を克服するために政治学で用いられる具体的な統計手法を体系的に扱う。
まず記述統計と推測統計の基礎を整理し、仮説検定の論理を解説する。次に、政治学で最も広く用いられている回帰分析(OLS)の構造と限界を論じる。その上で、因果推論の「ゴールドスタンダード」とされるランダム化比較試験(RCT)と、RCTが実施できない状況で因果推論を可能にする準実験的手法——差の差法(DID)、回帰不連続デザイン(RDD)、操作変数法(IV)、傾向スコアマッチング(PSM)——を、政治学における具体的応用例とともに解説する。
記述統計と推測統計の基礎¶
中心傾向と散布度¶
データの特徴を要約する記述統計(descriptive statistics)は、分析の出発点である。中心傾向の指標として平均値(mean)、中央値(median)、最頻値(mode)があり、散布度の指標として分散(variance)、標準偏差(standard deviation)、範囲(range)がある。
Key Concept: 記述統計(Descriptive Statistics) データの分布の特徴——中心傾向(平均値・中央値・最頻値)と散布度(分散・標準偏差)——を数値的に要約する統計手法。推論ではなく、データそのものの性質を記述することを目的とする。
政治学のデータでは、所得分布のように右に歪んだ分布が頻出する。このような場合、平均値は外れ値の影響を受けやすく、中央値がより頑健な中心傾向の指標となる。分析対象の分布の形状を把握することは、適切な統計手法を選択する前提条件である。
確率分布と正規分布¶
推測統計の基盤となるのが確率分布(probability distribution)である。とりわけ正規分布(normal distribution)——ガウス分布(Gaussian distribution)とも呼ばれる——は、統計的推論において中心的な役割を果たす。正規分布は平均μと標準偏差σの二つのパラメータで完全に規定され、左右対称の釣鐘型の形状をとる。
正規分布が重要である理由は、中心極限定理(central limit theorem)にある。中心極限定理は、母集団の分布がどのような形状であっても、十分に大きな標本から計算された標本平均の分布は正規分布に近似することを示す。この定理により、母集団の分布を仮定せずに標本統計量の分布を利用した推論が可能になる。
標本と母集団¶
推測統計(inferential statistics)の核心は、標本(sample)から母集団(population)の特性を推定することにある。
Key Concept: 推測統計(Inferential Statistics) 標本データから母集団のパラメータ(平均値、比率など)を推定し、仮説の検定を行う統計手法。記述統計がデータの要約にとどまるのに対し、推測統計は標本を超えた一般化を目指す。
母集団とは関心の対象となる全体の集合(例: すべての有権者、すべての民主主義国家)であり、標本とは母集団から抽出された部分集合である。標本が母集団を適切に代表するためには、無作為抽出(random sampling)が必要である。無作為抽出により、標本統計量(標本平均 x̄ など)は母集団パラメータ(母平均μなど)の不偏推定量(unbiased estimator)となる。
仮説検定¶
推測統計の中核的手続きが仮説検定(hypothesis testing)である。
Key Concept: 仮説検定(Hypothesis Testing) 母集団に関する仮説(帰無仮説)を標本データに基づいて検証する統計的手続き。帰無仮説が正しいと仮定した場合に観察されたデータ以上に極端な結果が得られる確率(p値)を計算し、あらかじめ設定した有意水準と比較して帰無仮説の棄却・非棄却を判断する。
仮説検定の手順は以下の通りである。
- 帰無仮説(null hypothesis: H₀) と対立仮説(alternative hypothesis: H₁) を設定する。帰無仮説は通常「効果がない」「差がない」という主張であり、対立仮説は研究者が検証したい主張である
- 有意水準(significance level: α) を設定する。政治学では慣例的にα = 0.05が用いられることが多い
- 検定統計量を計算し、帰無仮説の下でその値が得られる確率(p値)を求める
- p値 ≤ α の場合、帰無仮説を棄却する(「統計的に有意」と判断する)
ここで重要な注意がある。p値は帰無仮説が正しい確率ではない。p値は「帰無仮説が正しいと仮定した場合に、観察されたデータ以上に極端な結果が偶然得られる確率」である。この誤解は社会科学において広く蔓延しており、American Statistical Association(ASA)は2016年にp値の適切な使用に関する声明を発表している。
仮説検定には二種類の誤りが伴う。第一種の過誤(Type I error)は帰無仮説が実際には正しいのに棄却してしまう誤り(偽陽性)であり、その確率はαで制御される。第二種の過誤(Type II error)は帰無仮説が実際には誤りであるのに棄却しない誤り(偽陰性)であり、その確率をβとすると、1 - βが検定の検出力(statistical power)を表す。
信頼区間¶
信頼区間(confidence interval)は、母集団パラメータの推定に伴う不確実性を区間推定として表現するものである。
Key Concept: 信頼区間(Confidence Interval) 母集団パラメータが含まれると推定される値の範囲。95%信頼区間は「同じ手続きで標本を無限回抽出し区間を構成した場合、その95%が真のパラメータを含む」ことを意味する。個別の区間が真の値を含む確率が95%であるという意味ではない点に注意が必要である。
信頼区間の幅は、標本サイズ、データの散布度、信頼水準に依存する。標本サイズが大きいほど、また散布度が小さいほど、信頼区間は狭くなり推定の精度が向上する。
回帰分析の基本¶
線形回帰モデル(OLS)¶
回帰分析(regression analysis)は、政治学における定量的研究で最も広く用いられている手法である。トップジャーナルに掲載される実証研究の相当部分が何らかの形で回帰分析を用いており、因果推論手法が発展した現在も基幹的な分析技法であり続けている。
Key Concept: 回帰分析(Regression Analysis) 従属変数と一つ以上の独立変数の間の関係を数学的にモデル化する統計手法。最も基本的な形態である最小二乗法(OLS: Ordinary Least Squares)は、予測値と実測値の差の二乗の総和を最小化する直線を推定する。
最も単純な単回帰モデル(simple linear regression)は、以下のように定式化される。
Y = β₀ + β₁X + ε
- Y: 従属変数
- X: 独立変数
- β₀: 切片(Xが0のときのYの予測値)
- β₁: 回帰係数(Xが1単位変化したときのYの変化量)
- ε: 誤差項(モデルで説明されないYの変動)
最小二乗法(OLS: Ordinary Least Squares)は、残差(observed Y - predicted Y)の二乗和を最小化することでβ₀とβ₁を推定する。OLSは、ガウス=マルコフの定理(Gauss-Markov theorem)により、一定の条件(後述する前提条件)の下で最良線形不偏推定量(BLUE: Best Linear Unbiased Estimator)であることが保証される。
回帰係数の解釈¶
回帰係数β₁の解釈は「他の条件が一定の下で(ceteris paribus)、Xが1単位増加したとき、Yは平均的にβ₁単位変化する」である。ここでの「他の条件が一定」という但し書きは極めて重要であり、回帰分析が因果関係を示すか単なる相関を示すかを左右する核心的問題と結びつく。
政治学の具体例を挙げると、「一人当たりGDPが1,000ドル増加すると、民主主義指標が0.3ポイント上昇する」という回帰係数が得られたとしても、これが「経済成長が民主化を促進する」という因果的主張を支持するかどうかは、モデルの特定化、交絡変数の統制、逆因果の排除など、多くの追加的条件に依存する。
多変量回帰分析と統制変数の役割¶
多変量回帰分析(multiple regression analysis)は、複数の独立変数を同時にモデルに含めることで、各変数の独立した効果を推定する。
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
多変量回帰において、β₁は「X₂, X₃, ..., Xₖを一定に保った場合の、X₁の1単位の変化に対するYの変化量」と解釈される。この「一定に保つ」操作が統計的統制(statistical control)である。
Section 1で述べたように、交絡変数は独立変数と従属変数の双方に影響を与えることで見かけ上の関連を生じさせる。多変量回帰に交絡変数を統制変数として投入することで、交絡の影響を除去し、独立変数の「純粋な」効果を推定できる——というのが、多変量回帰による因果推論の基本的論理である。
ただし、この論理には重大な限界がある。統計的統制が有効に機能するのは、すべての関連する交絡変数がモデルに含まれている場合に限られる。観察されない交絡変数(unobserved confounders)が存在する場合、回帰係数は因果効果の不偏推定量にはならない。この問題は省略変数バイアス(omitted variable bias: OVB)と呼ばれ、観察研究に基づく回帰分析の根本的な限界をなす。
回帰分析の前提条件と限界¶
OLSの推定量が望ましい性質を持つためには、以下の前提条件が必要である。
| 前提条件 | 内容 | 違反時の問題 |
|---|---|---|
| 線形性 | YとXの関係が線形である | 推定のバイアス |
| 外生性 | E[ε|X] = 0(誤差項とXが無相関) | 推定のバイアス(OVB等) |
| 等分散性 | Var(ε|X) = σ²(誤差の分散が一定) | 推定量は不偏だが標準誤差が不正確 |
| 無自己相関 | 誤差項間に相関がない | 標準誤差が不正確 |
| 正規性 | 誤差項が正規分布に従う | 小標本での推論が不正確 |
これらの前提のうち、因果推論にとって最も致命的なのは外生性の違反である。外生性とは、誤差項と独立変数が無相関であること(E[ε|X] = 0)を意味する。省略変数バイアス(観察されない交絡変数の存在)、逆因果(reverse causation)、測定誤差(measurement error)はいずれも外生性を侵犯し、回帰係数を因果効果と解釈できなくする。
このため、2000年代以降の政治学では、回帰分析の統制変数による交絡の排除に頼る「回帰に基づく因果推論」から、研究デザインによって識別(identification)を確保する「デザインに基づく因果推論」へと方法論的規範が転換した。この転換を支えるのが、以下で解説する実験的・準実験的手法である。
因果推論の現代的手法——実験¶
ランダム化比較試験(RCT)の論理¶
ランダム化比較試験(Randomized Controlled Trial: RCT)は、因果推論の「ゴールドスタンダード」とされる。
Key Concept: ランダム化比較試験(Randomized Controlled Trial: RCT) 研究対象を処置群と統制群に無作為に割り当て、処置の因果効果を推定する実験デザイン。無作為化により、観察される交絡変数と観察されない交絡変数の双方が両群間で平均的に均等化されるため、処置群と統制群の結果の差が処置の因果効果の不偏推定量となる。
RCTの論理を、Section 1で導入した潜在的結果モデルの枠組みで説明する。無作為割当て(random assignment)が行われた場合、処置の割当て D は潜在的結果 Y(0) および Y(1) と独立(independent)になる。すなわち、
{Y(0), Y(1)} ⊥ D
この独立性により、
E[Y|D=1] - E[Y|D=0] = E[Y(1)|D=1] - E[Y(0)|D=0] = E[Y(1)] - E[Y(0)] = ATE
となる。Section 1で示した選択バイアスの項 {E[Y(0)|D=1] - E[Y(0)|D=0]} がゼロとなるため、処置群と統制群の結果の単純な差が ATEの不偏推定量となる。これが RCT の威力である。
フィールド実験とラボ実験の政治学への応用¶
政治学における実験研究は、2000年代以降急速に拡大した。主要な形態としてフィールド実験(field experiment)、サーベイ実験(survey experiment)、ラボ実験(laboratory experiment)がある。
フィールド実験の代表例: Gerber & Green のGOTV実験
Alan Gerber と Donald Green(2000)は、1998年のコネチカット州ニューヘイブンにおいて、約25,200人の有権者を対象としたフィールド実験を実施し、異なる投票動員(Get-Out-The-Vote: GOTV)手法の効果を検証した。有権者を無作為に処置群(戸別訪問、電話、ダイレクトメール)と統制群(接触なし)に割り当て、投票率を比較した。
結果、戸別訪問による対面接触が投票率を約8ポイント上昇させる最も効果的な手法であることが明らかになった。電話やダイレクトメールの効果はそれより小さかった。この研究は、投票動員の効果に関する大量のフォローアップ実験を触発し、約200件の実験のメタ分析では、戸別訪問の接触による投票率上昇は約4.3ポイントと推定されている。さらにGerber, Green & Shachar(2003)は、同じ実験データを用いて、一度投票した経験がその後の投票行動を習慣化させる効果を示した。
サーベイ実験の例
サーベイ実験は、調査票内に実験的処置を埋め込む手法である。回答者を無作為に異なる質問文や情報提示条件に割り当てることで、態度形成や判断に対する因果効果を推定する。例えば、候補者の人種・性別・政策立場を無作為に変えた架空のプロフィールを提示し、投票意向への影響を測定するコンジョイント実験(conjoint experiment)は、2010年代以降の政治学で広く用いられている。
実験の倫理的問題¶
政治学における実験は、固有の倫理的問題を提起する。
- インフォームド・コンセント: フィールド実験では、参加者が実験の対象であることを認識していない場合がある(Gerber & Green の GOTV 実験では有権者に実験への参加を事前に通知していない)
- 処置の不平等: ある集団に有益な処置を与え、他の集団に与えないことの公平性が問われる
- 政治過程への介入: 選挙や政策に関する実験は、民主的過程への不当な介入となりうる。2012年にHumphreys, de la Sierra & van der Windt がコンゴで実施した治安実験など、紛争地域での実験は特に慎重な倫理的考慮を要する
- 情報の操作: サーベイ実験における虚偽情報の提示や、情報操作による態度変容の誘発は、研究倫理上の問題を生じさせる
これらの倫理的制約に加え、政治学では実験可能な問いが限定されるという実際的制約もある(戦争の原因、体制転換の効果などは実験できない)。このため、実験不可能な問いに対する因果推論を可能にする準実験的手法の重要性が増す。
因果推論の現代的手法——自然実験と準実験¶
自然実験(natural experiment)および準実験(quasi-experiment)は、研究者が処置を操作するのではなく、制度的・歴史的・地理的な変動を利用して因果推論を行うアプローチである。以下に、政治学で特に重要な四つの手法を解説する。
graph TD
CI["因果推論の手法"]
EXP["実験的手法"]
QUASI["準実験的手法"]
RCT_N["RCT<br>(無作為割当て)"]
DID_N["差の差法<br>DID"]
RDD_N["回帰不連続デザイン<br>RDD"]
IV_N["操作変数法<br>IV"]
PSM_N["傾向スコアマッチング<br>PSM"]
CI --> EXP
CI --> QUASI
EXP --> RCT_N
QUASI --> DID_N
QUASI --> RDD_N
QUASI --> IV_N
QUASI --> PSM_N
RCT_N -.- C1["内的妥当性: 最高<br>無作為化で交絡を排除"]
DID_N -.- C2["平行トレンド仮定<br>時間固定効果を除去"]
RDD_N -.- C3["閾値近傍で局所的RCT<br>高い内的妥当性"]
IV_N -.- C4["外生的変動を利用<br>除外制約が鍵"]
PSM_N -.- C5["観察された共変量で<br>均衡化"]
style CI fill:#f5f5f5,stroke:#333
style EXP fill:#cce5ff,stroke:#0066cc
style QUASI fill:#e8f5e9,stroke:#2e7d32
style RCT_N fill:#cce5ff,stroke:#0066cc
style DID_N fill:#e8f5e9,stroke:#2e7d32
style RDD_N fill:#e8f5e9,stroke:#2e7d32
style IV_N fill:#e8f5e9,stroke:#2e7d32
style PSM_N fill:#e8f5e9,stroke:#2e7d32
差の差法(Difference-in-Differences: DID)¶
Key Concept: 差の差法(Difference-in-Differences: DID) ある政策や介入の効果を推定するために、処置群と統制群の結果変数の変化量の差を比較する手法。処置の前後の差を取ることで時間に固定的な交絡を除去し、さらに群間の差を取ることで群に固定的な交絡を除去する。
DIDの基本的構造は以下の通りである。処置群(政策の対象となった集団)と統制群(対象とならなかった集団)について、政策実施前(t=0)と実施後(t=1)の結果を比較する。
| 処置前(t=0) | 処置後(t=1) | 変化量 | |
|---|---|---|---|
| 処置群 | Ȳ₁₀ | Ȳ₁₁ | Ȳ₁₁ - Ȳ₁₀ |
| 統制群 | Ȳ₀₀ | Ȳ₀₁ | Ȳ₀₁ - Ȳ₀₀ |
| 差の差 | (Ȳ₁₁ - Ȳ₁₀) - (Ȳ₀₁ - Ȳ₀₀) |
graph LR
subgraph "差の差法の概念図"
direction LR
T0["処置前"]
T1["処置後"]
end
subgraph "処置群"
TA["Ȳ₁₀"] -->|"実際の変化"| TB["Ȳ₁₁"]
TA -.->|"処置なしの場合<br>(反事実)"| TC["Ȳ₁₀ + (Ȳ₀₁ - Ȳ₀₀)"]
end
subgraph "統制群"
CA["Ȳ₀₀"] -->|"変化"| CB["Ȳ₀₁"]
end
TB -.->|"DID推定量<br>= 因果効果"| TC
style TB fill:#ff9999,stroke:#cc0000
style TC fill:#99ccff,stroke:#0066cc
style TA fill:#ffe6cc,stroke:#cc6600
style CA fill:#e6ffe6,stroke:#339933
style CB fill:#e6ffe6,stroke:#339933
DIDの核心的仮定は平行トレンド仮定(parallel trends assumption)である。これは「処置がなかった場合、処置群と統制群は同一のトレンドで変化していたであろう」という仮定である。すなわち、処置群と統制群の結果の水準は異なっていてもよいが、その変化のパターンは平行であるという仮定に基づく。この仮定は直接検証できないが、処置前の複数時点のデータを用いてトレンドの平行性を視覚的・統計的に確認する「事前トレンドテスト」が一般的に行われる。
政治学におけるDIDの適用例として、最低賃金引き上げの雇用への影響に関するCard & Krueger(1994)の研究が広く知られている。ニュージャージー州の最低賃金引き上げ(処置)とペンシルバニア州(統制群)のファストフード店の雇用を比較し、最低賃金引き上げが雇用を減少させないことを示した。政治学ではDIDは、政策変更の効果分析、選挙制度改革の影響評価、法律の施行効果の推定などに広く用いられている。
回帰不連続デザイン(Regression Discontinuity Design: RDD)¶
Key Concept: 回帰不連続デザイン(Regression Discontinuity Design: RDD) 処置の割当てがある連続変数(割当変数)の閾値によって決定される状況を利用し、閾値近傍の個体を比較することで因果効果を推定する手法。閾値のわずか上と下にいる個体は、割当変数の値がほぼ同一であるため、準無作為化された状態にあるとみなせる。
RDDの論理は以下の通りである。割当変数(running variable / forcing variable)をXとし、閾値をcとする。X ≥ cの個体は処置を受け、X < cの個体は処置を受けない。閾値cの近傍では、Xの値がわずかに異なるだけで処置の有無が決まるため、閾値付近の個体は事実上の無作為割当てに近い状態にある。このため、閾値の両側の結果の差が因果効果の推定量となる。
RDDにはシャープRDD(sharp RDD)とファジーRDD(fuzzy RDD)の二種がある。シャープRDDでは割当変数が閾値を超えると確実に処置を受けるのに対し、ファジーRDDでは閾値を超えても処置を受ける確率が不連続に変化するのみで、全員が処置を受けるわけではない。ファジーRDDは操作変数法の一種として分析される。
政治学における代表例: Lee(2008)の現職効果の分析
David Lee(2008)は、アメリカ連邦下院選挙において、現職であること(incumbency)が再選確率に与える因果効果を RDD で推定した。割当変数は前回選挙の得票率差であり、閾値は50%(得票率が50%をわずかに上回った候補者が現職となる)である。50%をわずかに上回って当選した候補者と、わずかに下回って落選した候補者は、政治的能力や選挙区の特性において体系的に異なるとは考えにくい。Lee はこの準無作為化された比較から、現職であることが次回選挙での得票率を約35ポイント上昇させるという大きな現職効果を推定した。
RDDの強みは、閾値近傍において高い内的妥当性を持つことである。主要な識別仮定は、閾値の周辺で割当変数を正確に操作できない(no precise manipulation)ことである。すなわち、個体が戦略的に閾値の上下を選べないという仮定が必要である。この仮定の検証として、McCrary(2008)の密度検定(割当変数の分布が閾値で不連続に変化していないかの検定)が標準的に用いられる。
RDDの限界は、推定される因果効果が閾値近傍の個体に対する局所的平均処置効果(Local Average Treatment Effect: LATE)であり、閾値から離れた個体への一般化(外的妥当性)が保証されないことである。
操作変数法(Instrumental Variables: IV)¶
Key Concept: 操作変数法(Instrumental Variables: IV) 内生的な独立変数と相関するが、誤差項とは直接相関しない変数(操作変数 / 道具変数)を用いて、因果効果を推定する手法。操作変数は、独立変数に対する「外生的な変動」の源泉を提供し、その変動のみを利用して従属変数への影響を推定する。
操作変数法の論理は以下の通りである。独立変数 X が従属変数 Y に与える効果を推定したいが、X が内生的(誤差項と相関する)であるとする。ここで操作変数 Z を導入する。Z は以下の二つの条件を満たす必要がある。
- 関連性条件(relevance condition): Z は X と相関する(Cov(Z, X) ≠ 0)
- 除外制約(exclusion restriction): Z は X を通じてのみ Y に影響し、Y に直接影響しない(Cov(Z, ε) = 0)
推定は二段階最小二乗法(Two-Stage Least Squares: 2SLS)により行われる。第一段階で Z を用いて X の予測値 X̂ を求め、第二段階で X̂ を用いて Y への効果を推定する。X̂ は Z の外生的変動のみを反映するため、内生性の問題が解消される。
政治学における代表例: Acemoglu, Johnson & Robinson(2001)の制度と経済発展
Daron Acemoglu, Simon Johnson, James A. Robinson(2001, American Economic Review)は、旧植民地における制度の質が経済発展に与える因果効果を操作変数法で推定した。制度の質(独立変数)は経済発展(従属変数)と相互に影響し合う内生的な関係にある。
彼らは、17〜19世紀のヨーロッパ人入植者の死亡率(settler mortality)を操作変数として用いた。その論理は以下の通りである。入植者の死亡率が低い地域(温帯地域など)ではヨーロッパ人が定住し、財産権を保護する包摂的制度を構築した。死亡率が高い地域(熱帯地域など)ではヨーロッパ人が定住せず、搾取的な制度を構築した。これらの制度は植民地時代以降も持続し、現在の経済発展に影響を与えている。入植者死亡率は現在の経済パフォーマンスに直接影響するのではなく、制度を通じてのみ影響するという除外制約が主張された。
分析の結果、制度の質が一人当たり GDP に対して大きな正の因果効果を持つことが示された。この研究は2024年のノーベル経済学賞受賞の主要根拠の一つとなった。ただし、この研究にはデータの信頼性(死亡率の測定)や除外制約の妥当性に関する批判も存在する。Albouy(2012, American Economic Review)は、64か国のうち36か国の死亡率データが他国からの代入であり、データの質に問題があることを指摘した。
操作変数法の最大の課題は、良質な操作変数を見つけることの困難さにある。特に、除外制約——操作変数が処置を通じてのみ結果に影響し、直接的な影響経路を持たないこと——は本質的に検証不可能な仮定であり、理論的な根拠に基づいて主張するほかない。
傾向スコアマッチング(Propensity Score Matching: PSM)¶
Key Concept: 傾向スコアマッチング(Propensity Score Matching: PSM) 処置を受ける確率(傾向スコア)を観察された共変量から推定し、傾向スコアが近似する処置群と統制群の個体を対(マッチ)にして比較することで因果効果を推定する手法。Rosenbaum & Rubin(1983)によって提唱された。
PSMの論理は以下の通りである。多数の共変量が存在する場合、処置群と統制群を共変量のすべての次元で直接マッチングすることは困難である(「次元の呪い」)。Rosenbaum & Rubin(1983)は、すべての観察された共変量 X の情報を一つのスカラー値——傾向スコア(propensity score)e(X) = P(D=1|X)——に縮約できることを示した。
傾向スコアは均衡化スコア(balancing score)としての性質を持つ。すなわち、傾向スコアの値が同じ個体間では、観察された共変量 X の分布が処置群と統制群で同一となる。これにより、傾向スコアが近似する個体同士をマッチングすれば、観察された共変量に関して「ミニ無作為化実験」を再現できる。
PSMの手順は以下の通りである。
- 傾向スコアの推定: ロジスティック回帰などにより、共変量から処置を受ける確率を推定する
- マッチング: 処置群の各個体に対し、傾向スコアが最も近い統制群の個体を対応づける(最近傍マッチング、カリパーマッチングなど)
- 均衡の確認: マッチング後、共変量の分布が処置群と統制群で均衡化されているかを確認する
- 効果の推定: マッチングされたペアの結果を比較し、ATTを推定する
PSMの決定的な限界は、観察された共変量のみに基づく均衡化であるという点である。PSMは「選択は観察可能(selection on observables)」——すなわち、処置の割当てに影響するすべての交絡変数が観察されモデルに含まれている——という仮定に依存する。この仮定は無交絡仮定(unconfoundedness / conditional independence assumption)と呼ばれ、観察されない交絡変数が存在する場合には成立しない。DID、RDD、IVが研究デザインによって識別を確保するのに対し、PSMはモデリングの仮定に依存する点で、因果推論の手法としてはより脆弱である。
King & Nielsen(2019)は、PSMが多くの状況でモデル依存性、推定の不安定性、バイアスの増大をもたらしうることを指摘し、政治学におけるPSMの無批判な使用に対して警鐘を鳴らした。
まとめ¶
- 記述統計はデータの特徴を要約し、推測統計は標本から母集団への一般化を可能にする。仮説検定はp値に基づく帰無仮説の棄却・非棄却の手続きであるが、p値の解釈には注意が必要である
- 回帰分析(OLS)は政治学で最も広く用いられる手法であるが、省略変数バイアスのため、観察研究における回帰係数を因果効果と解釈するには強い仮定が必要である
- RCTは無作為割当てにより選択バイアスを排除し、内的妥当性の高い因果推論を可能にする。Gerber & GreenのGOTV実験はその代表例である
- DIDは処置群と統制群の変化量の差を利用し、平行トレンド仮定の下で因果効果を推定する
- RDDは閾値近傍での準無作為化を利用し、局所的な因果効果を高い内的妥当性で推定する
- IVは外生的な変動の源泉(操作変数)を用いて内生性の問題を克服するが、良質な操作変数の発見と除外制約の正当化が課題である
- PSMは傾向スコアに基づくマッチングで共変量の均衡化を図るが、観察されない交絡変数に対しては無力である
- 各手法にはそれぞれ固有の識別仮定と限界があり、研究の問いと利用可能なデータに応じた適切な手法の選択が求められる
- 次のSection 3では、定性的方法と混合研究法を扱い、因果推論に対する定性的アプローチの固有の貢献を検討する
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 記述統計 | Descriptive Statistics | データの分布の特徴を数値的に要約する統計手法 |
| 推測統計 | Inferential Statistics | 標本データから母集団のパラメータを推定・検定する統計手法 |
| 中心極限定理 | Central Limit Theorem | 標本サイズが十分大きければ標本平均の分布が正規分布に近似するという定理 |
| 仮説検定 | Hypothesis Testing | 帰無仮説を標本データに基づいて検証する統計的手続き |
| p値 | p-value | 帰無仮説が正しい場合に観察データ以上に極端な結果が得られる確率 |
| 信頼区間 | Confidence Interval | 母集団パラメータが含まれると推定される値の範囲 |
| 回帰分析 | Regression Analysis | 従属変数と独立変数の関係を数学的にモデル化する統計手法 |
| 最小二乗法 | Ordinary Least Squares (OLS) | 残差の二乗和を最小化して回帰係数を推定する手法 |
| 省略変数バイアス | Omitted Variable Bias (OVB) | 関連する変数がモデルから省略されることで回帰係数にバイアスが生じること |
| ランダム化比較試験 | Randomized Controlled Trial (RCT) | 無作為割当てにより処置の因果効果を推定する実験デザイン |
| 差の差法 | Difference-in-Differences (DID) | 処置群と統制群の変化量の差を比較して因果効果を推定する手法 |
| 平行トレンド仮定 | Parallel Trends Assumption | DIDの識別仮定。処置がなければ両群は平行に推移するという仮定 |
| 回帰不連続デザイン | Regression Discontinuity Design (RDD) | 割当変数の閾値を利用して因果効果を推定する手法 |
| 操作変数法 | Instrumental Variables (IV) | 外生的な変数を用いて内生的な独立変数の因果効果を推定する手法 |
| 除外制約 | Exclusion Restriction | 操作変数が処置を通じてのみ結果に影響するという仮定 |
| 二段階最小二乗法 | Two-Stage Least Squares (2SLS) | IV推定の標準的手法。第一段階で内生変数を操作変数で予測し、第二段階で予測値を用いて推定する |
| 傾向スコアマッチング | Propensity Score Matching (PSM) | 処置を受ける確率で個体をマッチングし因果効果を推定する手法 |
| 傾向スコア | Propensity Score | 観察された共変量から推定される処置を受ける条件付き確率 |
| 無交絡仮定 | Unconfoundedness | 観察された共変量を条件付ければ処置割当てが潜在的結果と独立であるという仮定 |
| 局所的平均処置効果 | Local Average Treatment Effect (LATE) | 特定の部分集団(閾値近傍やcomplier)における平均的因果効果 |
確認問題¶
Q1: p値の正しい定義を述べよ。また、「p = 0.03 は帰無仮説が正しい確率が3%であることを意味する」という解釈が誤りである理由を説明せよ。
A1: p値とは、帰無仮説が正しいと仮定した場合に、観察されたデータ以上に極端な結果が偶然得られる確率である。「p = 0.03 は帰無仮説が正しい確率が3%」という解釈は誤りである。p値は帰無仮説が正しいという条件の下でデータが生じる確率 P(データ|H₀) であり、データが観察されたという条件の下で帰無仮説が正しい確率 P(H₀|データ) ではない。後者はベイズ的な事後確率であり、p値とは根本的に異なる概念である。p値が小さいことは、帰無仮説と矛盾するデータが得られたことを示すが、帰無仮説が誤りである確率を直接示すものではない。
Q2: 観察研究における回帰分析で因果推論が困難な理由を、省略変数バイアス(OVB)の概念を用いて説明せよ。
A2: 回帰分析が因果効果の不偏推定量を与えるためには、外生性条件 E[ε|X] = 0 が成立する必要がある。すなわち、誤差項(モデルに含まれていないすべての要因)が独立変数と無相関でなければならない。しかし観察研究では、独立変数と従属変数の双方に影響する交絡変数がモデルから省略されている場合、この交絡変数の効果が誤差項に含まれ、誤差項と独立変数が相関する。これが省略変数バイアスであり、回帰係数が因果効果から系統的に乖離する原因となる。すべての関連する交絡変数を特定しモデルに含めることは一般に不可能であるため、回帰分析のみでは因果効果の推定に限界がある。
Q3: 差の差法(DID)における平行トレンド仮定の内容を説明し、この仮定が成立しない場合にDID推定量にどのような問題が生じるかを述べよ。
A3: 平行トレンド仮定とは、処置が行われなかった場合に、処置群と統制群の結果変数は同一のトレンド(同じ傾き)で変化していたであろうという仮定である。すなわち、両群の結果の水準は異なっていてもよいが、時間的変化のパターンは平行であるという仮定に基づく。この仮定が成立しない場合——例えば、処置群が処置前から統制群とは異なるトレンドで変化していた場合——DID推定量は処置の因果効果と、両群のトレンドの差異を区別できなくなり、バイアスのある推定量となる。処置前の複数時点のデータでトレンドの平行性を事前検証することが実務上重要だが、処置前のトレンドが平行であっても処置後に平行であることは保証されないため、平行トレンド仮定は本質的に検証不可能な仮定である。
Q4: 操作変数法(IV)の二つの条件(関連性条件と除外制約)を説明し、Acemoglu, Johnson & Robinson(2001)の研究においてこれらの条件がどのように満たされると主張されたかを述べよ。
A4: 操作変数の二つの条件は以下の通りである。関連性条件とは、操作変数Zが内生的な独立変数Xと相関すること(Cov(Z,X) ≠ 0)であり、これは統計的に検証可能である。除外制約とは、操作変数ZがXを通じてのみ結果変数Yに影響し、Yに直接影響する経路を持たないこと(Cov(Z,ε) = 0)であり、これは検証不可能な仮定である。Acemoglu, Johnson & Robinson(2001)では、操作変数Zは17〜19世紀のヨーロッパ人入植者の死亡率、Xは現在の制度の質、Yは現在の一人当たりGDPである。関連性条件については、入植者死亡率が低い地域ではヨーロッパ人が定住し包摂的な制度を構築したため、入植者死亡率と現在の制度の質は相関するとされた。除外制約については、数百年前の入植者死亡率は現在の経済発展に直接影響するのではなく、植民地時代に構築された制度が持続することを通じてのみ影響するという理論的主張がなされた。
Q5: RCT、DID、RDD、IV、PSMの五つの因果推論手法について、それぞれの主要な識別仮定を一つずつ挙げ、どのような研究状況で各手法が適切かを比較せよ。
A5: 各手法の識別仮定と適用状況は以下の通りである。RCT: 識別仮定は無作為割当ての実施(SUTVA: 安定的単位処置値仮定を含む)であり、研究者が処置を操作できる場合に適用する。倫理的・実際的に実験が可能な問いに最適である。DID: 識別仮定は平行トレンド仮定(処置がなければ両群は同一トレンドで推移する)であり、政策変更など特定時点で一部の集団のみが処置を受けた状況で適用する。処置前後の両群のデータが必要である。RDD: 識別仮定は閾値近傍での割当変数の操作不可能性であり、処置の割当てが連続変数の閾値で決まる状況(選挙の勝敗、試験の合否など)に適用する。閾値近傍のLATEのみを推定する。IV: 識別仮定は除外制約(操作変数が処置を通じてのみ結果に影響する)と関連性条件であり、独立変数が内生的だが外生的な変動の源泉となる変数が利用可能な場合に適用する。良質な操作変数の発見が最大の課題である。PSM: 識別仮定は無交絡仮定(観察された共変量を条件付ければ処置割当てが潜在的結果と独立)であり、実験やデザインベースの手法が利用できないが豊富な共変量データがある場合に適用する。観察されない交絡には対処できない点で他の手法より脆弱である。