Module 2-4 - Section 2: 回帰分析¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 2-4: 心理統計法 II・研究法 |
| 前提セクション | Section 1(分散分析の発展) |
| 想定学習時間 | 5〜6時間 |
導入¶
Module 0-2では、2変数間の関連を相関係数で評価し、単回帰分析によって1つの予測変数から基準変数を予測する枠組みを学んだ。しかし、心理学的な現象は単一の変数だけで説明されることは稀であり、複数の要因が同時に作用して結果を生み出す。例えば、大学生の学業成績を予測する場合、知能指数だけでなく、学習動機、自己効力感、授業への出席率など多くの変数が関与しうる。
本セクションでは、(1) 複数の予測変数を用いる重回帰分析、(2) 理論的根拠に基づいて変数を段階的に投入する階層的回帰分析、(3) 変数間の因果的メカニズムを検討する媒介分析と調整分析、(4) 二値の結果変数を扱うロジスティック回帰分析を取り上げる。これらは現代の心理学研究において最も頻繁に用いられる分析手法であり、Section 1で扱った分散分析とともに、実証研究の基盤をなすものである。
重回帰分析¶
単回帰から重回帰への拡張¶
単回帰分析では、1つの予測変数 X から基準変数 Y を予測するモデル Y = b₀ + b₁X + e を扱った。重回帰分析(multiple regression)はこれを複数の予測変数に拡張し、複数の変数が同時に基準変数をどの程度予測するかを検討する。
Key Concept: 重回帰分析(multiple regression) 複数の予測変数(独立変数)から1つの基準変数(従属変数)を予測する統計手法。各予測変数が基準変数に及ぼす独自の影響を、他の予測変数の影響を統制した上で評価できる。
一般的なモデル式は以下の通りである。
Y = b₀ + b₁X₁ + b₂X₂ + ... + bₖXₖ + e
ここで b₀ は切片、b₁〜bₖ は偏回帰係数、e は残差(誤差)を表す。予測変数がk個あるとき、k個の偏回帰係数と1つの切片が最小二乗法によって推定される。
偏回帰係数と標準化偏回帰係数¶
Key Concept: 偏回帰係数(partial regression coefficient) 他のすべての予測変数を統制した(一定に保った)上での、特定の予測変数1単位の変化に対応する基準変数の変化量。単回帰における回帰係数と異なり、他の予測変数の影響を除去した「独自の寄与」を表す。
偏回帰係数 bⱼ は「他の予測変数をすべて一定に保ったとき、Xⱼ が1単位増加すると Y がどれだけ変化するか」を示す。しかし、偏回帰係数は予測変数の測定単位に依存するため、変数間で効果の大きさを直接比較できない。例えば、「知能指数(IQ)」と「1日の学習時間(時間)」では測定単位が異なるため、偏回帰係数の絶対値を比較しても意味がない。
Key Concept: 標準化偏回帰係数(standardized partial regression coefficient, β) すべての変数を平均0・標準偏差1に標準化した上で算出される偏回帰係数。単位に依存しないため、異なる予測変数間で基準変数への相対的影響力を比較できる。
標準化偏回帰係数 β は、各変数を z 得点に変換してから回帰分析を行うことで得られる(あるいは、非標準化係数に各変数の標準偏差の比を乗じて算出できる)。β = 0.30 であれば、「他の変数を統制した上で、Xⱼ が1標準偏差増加すると Y が0.30標準偏差増加する」と解釈する。心理学の論文では、偏回帰係数 b と標準化偏回帰係数 β の両方を報告することが標準的である。
重決定係数 R² と調整済み R²¶
Key Concept: 重決定係数(coefficient of determination, R²) 基準変数の全変動のうち、回帰モデル(すべての予測変数の組み合わせ)によって説明される割合。0から1の範囲をとり、1に近いほどモデルの予測力が高い。
R² は、分散分析における η² に相当するモデル全体の効果量指標である。R² = SS_regression / SS_total で算出される。例えば R² = .35 であれば、基準変数の変動の35%がモデルに含まれる予測変数によって説明されることを意味する。
しかし、R² には予測変数を追加すればするほど値が増加するという性質がある(たとえ追加した変数に真の予測力がなくても)。これは、サンプルデータに対する過剰適合(overfitting)を引き起こしうる。
Key Concept: 調整済み R²(adjusted R²) 予測変数の数とサンプルサイズに基づいて R² を下方修正した値。不必要な予測変数の追加によるR²の人為的な増加を補正し、モデルの交差妥当性(新しいデータに対する予測力)のより適切な推定を提供する。
調整済み R² = 1 - (1 - R²) × (N - 1) / (N - k - 1)
ここで N はサンプルサイズ、k は予測変数の数である。予測力のない変数を追加した場合、調整済み R² は R² と異なり減少しうる。モデルの評価には調整済み R² を参照することが推奨される。なお、Section 1で述べた η² と ω² の関係と同じ原理に基づく補正である。
多重共線性¶
Key Concept: 多重共線性(multicollinearity) 予測変数間に高い相関が存在する状態。多重共線性が深刻な場合、偏回帰係数の推定が不安定になり、標準誤差が増大して統計的検定の信頼性が低下する。
重回帰分析では、各予測変数の「独自の寄与」を推定するために、予測変数間の相関を考慮してそれぞれの変数の効果を分離する。しかし、予測変数間の相関が極めて高い場合(例: r > .80)、この分離が困難になる。極端な場合、2つの予測変数がほぼ同一の情報を持つため、どちらがどれだけ寄与しているかを安定的に推定できなくなる。
多重共線性の主な症状として、(1) 偏回帰係数の符号が理論的予測と逆転する、(2) ゼロ次相関(単純相関)では有意であった予測変数が重回帰では有意でなくなる、(3) 偏回帰係数の標準誤差が異常に大きくなる、などがある。
多重共線性の診断指標として、VIF(分散拡大係数, variance inflation factor)とトレランス(tolerance)が用いられる。
| 指標 | 算出法 | 判断基準 |
|---|---|---|
| VIF | 1 / (1 - Rⱼ²) ※Rⱼ²はXⱼを他の全予測変数で回帰したときのR² | VIF > 10 で深刻な多重共線性(VIF > 5 を基準とする見解もある) |
| トレランス | 1 - Rⱼ² = 1 / VIF | tolerance < .10 で深刻な多重共線性 |
graph TD
A["多重共線性の診断"] --> B["VIF算出"]
A --> C["トレランス算出"]
B --> D{"VIF > 10?"}
C --> E{"tolerance < .10?"}
D -->|Yes| F["多重共線性あり"]
D -->|No| G["許容範囲"]
E -->|Yes| F
E -->|No| G
F --> H["対処法"]
H --> H1["変数の削除"]
H --> H2["変数の統合<br/>(合成得点・主成分)"]
H --> H3["リッジ回帰の使用"]
対処法としては、(1) 高相関の変数の一方を除外する、(2) 相関の高い変数群を主成分分析等で合成得点にまとめる、(3) リッジ回帰など正則化手法を用いる、などがある。
回帰分析の仮定¶
重回帰分析の結果が妥当であるためには、いくつかの仮定が満たされている必要がある。
| 仮定 | 内容 | 確認方法 |
|---|---|---|
| 線形性(linearity) | 予測変数と基準変数の関係が線形である | 残差プロット(残差 vs. 予測値)のパターン確認 |
| 残差の正規性(normality of residuals) | 残差が正規分布に従う | 残差のQ-Qプロット、Shapiro-Wilk検定 |
| 等分散性(homoscedasticity) | 予測値の水準にかかわらず残差の分散が一定 | 残差プロット(漏斗状の散布→違反の徴候) |
| 残差の独立性(independence of residuals) | 残差間に系列相関がない | Durbin-Watson統計量(2に近ければ独立) |
| 多重共線性の不在 | 予測変数間の過度な相関がない | VIF、トレランス |
graph LR
subgraph "仮定の確認"
A["線形性"] --> E["残差 vs 予測値プロット"]
B["正規性"] --> F["Q-Qプロット"]
C["等分散性"] --> E
D["独立性"] --> G["Durbin-Watson統計量"]
end
これらの仮定が満たされない場合、推定量の不偏性や効率性が損なわれ、検定結果の信頼性が低下する。違反の程度が軽微であれば回帰分析は比較的ロバストであるが、深刻な違反に対しては変数変換、非線形回帰、一般化線形モデルなどの代替的手法を検討する必要がある。
階層的回帰分析¶
変数投入のアプローチ¶
複数の予測変数を回帰モデルに投入する方法には、大きく分けて次の3つのアプローチがある。
| アプローチ | 特徴 | 性質 |
|---|---|---|
| 強制投入法(enter) | すべての予測変数を一括投入 | 理論的 |
| 階層的回帰分析(hierarchical regression) | 研究者が理論的根拠に基づいて投入順序を決定 | 理論駆動 |
| ステップワイズ回帰(stepwise regression) | 統計的基準(p値やAIC等)に基づいて自動的に変数を選択 | 探索的・データ駆動 |
Key Concept: 階層的回帰分析(hierarchical regression) 研究者が理論的根拠に基づいて予測変数を段階的(ステップ)にモデルへ投入し、各ステップで追加された変数が基準変数の予測にどれだけ寄与するか(増分的予測力)を検討する分析手法。
階層的回帰分析の「階層」とは、変数の投入順序を意味する。例えば、「うつ症状」の予測において、Step 1で統制変数(年齢・性別)を投入し、Step 2で認知的変数(反芻傾向)を追加投入するという手順をとる。これにより、年齢・性別の影響を統制した上で、反芻傾向が追加的にどれだけうつ症状を予測するかを評価できる。
R² 変化量とF変化検定¶
Key Concept: R²変化量(ΔR², R-squared change) 新しい変数群を投入した際のR²の増加分。Step kにおける ΔR² = R²_k - R²_(k-1) で算出され、追加された変数群の増分的予測力を示す。
各ステップでのR²変化量が統計的に有意かどうかは、F変化検定(F-change test)で評価する。
F_change = [(R²_new - R²_old) / (k_new - k_old)] / [(1 - R²_new) / (N - k_new - 1)]
ここで k_new と k_old はそれぞれ新旧モデルの予測変数の数、N はサンプルサイズである。
graph TD
S1["Step 1: 統制変数を投入"] --> R1["R² = .12"]
R1 --> S2["Step 2: 理論変数を追加投入"]
S2 --> R2["R² = .28"]
R2 --> D["ΔR² = .16"]
D --> F["F変化検定"]
F --> P{"p < .05?"}
P -->|Yes| SIG["理論変数は統制変数を<br/>超えて有意に予測する"]
P -->|No| NS["増分的予測力は有意でない"]
階層的回帰分析とステップワイズ回帰の違い¶
階層的回帰分析とステップワイズ回帰は、「段階的に変数を投入する」という点で表面上似ているが、本質的に異なる手法である。
| 観点 | 階層的回帰分析 | ステップワイズ回帰 |
|---|---|---|
| 投入順序の決定 | 研究者が理論的根拠に基づいて決定 | 統計的基準(p値やAIC)に基づいてアルゴリズムが決定 |
| 目的 | 理論的仮説の検証(特定の変数の増分的予測力) | 最適な予測変数のセットの探索 |
| 再現性 | 理論に基づくため結果の解釈が安定 | サンプル依存性が高く、異なるサンプルで結果が変わりやすい |
| 推奨度 | 確認的研究で強く推奨 | 探索的目的に限定。交差妥当化が必須 |
ステップワイズ回帰は、サンプルデータの偶然の変動に過剰適合しやすく、偏回帰係数のバイアス、標準誤差の過小推定、R²の過大推定などの問題が指摘されている。心理学の主要学術誌では、理論的根拠のないステップワイズ回帰の使用は一般に推奨されていない。
媒介分析と調整分析¶
媒介(mediation)の概念¶
心理学研究では、X が Y に影響を及ぼす際に、その影響が第三の変数 M を通じて伝達されるメカニズム(「なぜ」「どのように」X が Y に影響するか)に関心が向けられることが多い。このような変数 M を媒介変数(mediator)と呼ぶ。
Key Concept: 媒介(mediation) 独立変数 X が従属変数 Y に影響を及ぼす過程において、その効果の一部または全部が第三の変数 M を経由して伝達されるメカニズム。X → M → Y の因果連鎖を想定し、M を媒介変数と呼ぶ。
例として、「ストレスフルライフイベント(X)→ 反芻思考(M)→ うつ症状(Y)」というモデルを考える。ストレスフルな出来事がうつ症状を引き起こすメカニズムの一部は、反芻思考(繰り返しネガティブなことを考え続ける認知スタイル)を介して生じるという仮説である。
graph LR
X["X: ストレスフル<br/>ライフイベント"] -->|"c'(直接効果)"| Y["Y: うつ症状"]
X -->|"a"| M["M: 反芻思考"]
M -->|"b"| Y
Baron & Kenny (1986) の手順¶
媒介分析の古典的手法として、Baron & Kenny(1986)が提案した4ステップの手順がある。これは長年にわたり心理学研究で最も広く用いられた方法である。
| ステップ | 検定内容 | 必要条件 |
|---|---|---|
| 1 | X → Y の回帰(総合効果 c) | c が有意 |
| 2 | X → M の回帰(パス a) | a が有意 |
| 3 | X と M → Y の回帰(パス b) | M を統制変数として投入した上で b が有意 |
| 4 | X → Y の直接効果(c')の確認 | c' = 0 なら完全媒介、0 < c' < c なら部分媒介 |
間接効果(indirect effect)は a × b で算出される。総合効果(total effect)c は、直接効果 c' と間接効果 a × b の和に分解される。
c = c' + a × b
Baron & Kenny の手順の限界¶
Baron & Kenny の方法は直観的で理解しやすいが、現在では以下の限界が広く認識されている。
- ステップ1(c が有意)の必要性: 総合効果 c が有意でなくても媒介効果は存在しうる。例えば、間接効果 a × b が正で直接効果 c' が負の場合、相殺されて c ≈ 0 となる(抑制効果, suppression)。このため、ステップ1を前提条件とすることは現在では不適切とされる
- 統計的検定力の低さ: 4つの条件すべてを満たすことを要求するため、検定力が低い
- 間接効果の検定が不十分: 間接効果 a × b の有意性を直接的に検定していない。a × b の標本分布は正規分布に従わないため、通常のz検定やt検定は不適切である
ブートストラップ法による間接効果の検定¶
Key Concept: ブートストラップ法(bootstrap method) 元のデータからの復元抽出を多数回繰り返し(通常5,000〜10,000回)、間接効果 a × b の標本分布を経験的に構築する方法。間接効果の信頼区間を算出し、その信頼区間がゼロを含まなければ間接効果は有意と判断する。
Preacher & Hayes(2004, 2008)が推奨するブートストラップ法は、以下の手順で実施される。
- 元データから N 個のケースを復元抽出してブートストラップ標本を作成
- そのブートストラップ標本でパス a とパス b を推定し、a × b を算出
- 上記を 5,000〜10,000回繰り返し、間接効果のブートストラップ分布を生成
- その分布の2.5パーセンタイルと97.5パーセンタイルを95%信頼区間とする
- 信頼区間がゼロを含まなければ、間接効果は有意である
graph TD
A["元データ(N個)"] --> B["復元抽出で<br/>ブートストラップ標本を生成"]
B --> C["a × b を算出"]
C --> D{"5,000回<br/>繰り返し?"}
D -->|No| B
D -->|Yes| E["間接効果の<br/>ブートストラップ分布"]
E --> F["95%信頼区間を算出"]
F --> G{"0を含む?"}
G -->|No| H["間接効果は有意"]
G -->|Yes| I["間接効果は有意でない"]
ブートストラップ法は、間接効果の非正規分布に対してロバストであり、検定力も Baron & Kenny の手順より高い。現在では、心理学における媒介分析の標準的手法として広く受け入れられている。実装としては、SPSS用のPROCESSマクロ(Andrew Hayes作成)やRのmediationパッケージ、lavaanパッケージが広く使用されている。
調整(moderation)の概念¶
媒介が「なぜ」「どのように」X が Y に影響するかに焦点を当てるのに対し、調整は「いつ」「誰にとって」X と Y の関係が強まるか(あるいは弱まるか)に焦点を当てる。
Key Concept: 調整(moderation) 独立変数 X が従属変数 Y に及ぼす効果の方向や強さが、第三の変数 W(調整変数, moderator)の水準によって異なること。X と Y の関係が条件付きであることを示す。
例として、「社会的支援(X)→ ストレス反応(Y)」の関係が「自己効力感(W)」によって調整されるモデルを考える。自己効力感が高い人では社会的支援がストレス軽減に大きく寄与するが、自己効力感が低い人ではその効果が弱い、という場合である。
交互作用項による調整効果の検定¶
調整効果は、回帰分析に交互作用項(interaction term)を投入することで検定する。これは概念的に、Section 1で扱った分散分析における交互作用と同一の現象を、回帰分析の枠組みで扱うものである。
Y = b₀ + b₁X + b₂W + b₃(X × W) + e
交互作用項 X × W の偏回帰係数 b₃ が有意であれば、W が X → Y の関係を調整していると結論づける。
実施上の重要な手順として、交互作用項を作成する前に X と W を中心化(centering: 各変数から平均値を減じる)することが推奨される。中心化は交互作用項と主効果項の間の多重共線性を低減し、偏回帰係数の解釈を明確にする。ただし、交互作用の有意性検定自体は中心化の有無によって影響されない。
単純傾斜分析¶
交互作用が有意であった場合、調整変数 W の異なる水準において X → Y の関係がどのように変化するかを具体的に記述するために、単純傾斜分析(simple slope analysis)を行う。
Key Concept: 単純傾斜分析(simple slope analysis) 調整変数の特定の値における、独立変数が従属変数に及ぼす効果(単純傾斜)を算出・検定する手法。通常、調整変数の平均値、平均 + 1SD、平均 - 1SD の3点で単純傾斜を求める。
単純傾斜とは、W を特定の値に固定したときの X の回帰係数である。上の回帰式では、W を特定の値 w₀ に固定すると、
Y = (b₀ + b₂w₀) + (b₁ + b₃w₀)X + e
となり、X の傾き(b₁ + b₃w₀)が W の値に依存する。この傾きが各水準で有意かどうかを検定することで、「W が高いときには X → Y の関係が有意だが、W が低いときには有意でない」といった具体的なパターンを記述できる。
Johnson-Neyman法(Johnson-Neyman technique)は、単純傾斜が有意となる W の値の範囲(有意性の転換点)を算出する、より精密な手法である。
媒介と調整の統合¶
実際の心理学的メカニズムでは、媒介と調整が同時に作用することが少なくない。
Key Concept: 条件付き間接効果(conditional indirect effect / moderated mediation) 媒介効果の大きさが調整変数の水準によって異なるモデル。間接効果 a × b を構成するパス a またはパス b(あるいは両方)が調整変数によって調整される状況を扱う。
例えば、「ストレス(X)→ 反芻(M)→ うつ(Y)」という媒介モデルにおいて、パス b(反芻 → うつ)の強さが「社会的支援(W)」によって調整されるという仮説が考えられる。社会的支援が高い人では反芻がうつに及ぼす影響が弱く(バッファリング効果)、社会的支援が低い人では反芻がうつに強く影響する、というモデルである。
graph LR
X["X: ストレス"] -->|"a"| M["M: 反芻"]
M -->|"b(Wで調整)"| Y["Y: うつ"]
X -->|"c'"| Y
W["W: 社会的支援"] -->|"調整"| BPath["パス b"]
条件付き間接効果は、Wの特定の値における間接効果(a × b_w)として算出され、その信頼区間をブートストラップ法で求める。PROCESSマクロ(Model 14など)やRのlavaanパッケージで比較的容易に実装可能である。
媒介と調整の統合モデルは、Hayes(2013, 2018)の体系化により急速に普及し、条件付きプロセス分析(conditional process analysis)と呼ばれる枠組みとして確立された。
ロジスティック回帰の基礎¶
二値結果変数への対応¶
これまで扱ってきた回帰分析は、基準変数が連続変数(量的変数)であることを前提としていた。しかし、心理学研究では基準変数が二値(dichotomous)であることも多い。例えば、「治療への応答あり/なし」「うつ病の発症あり/なし」「課題への正答/誤答」などである。このような場合、通常の重回帰分析(線形回帰)は適切ではない。
線形回帰で二値変数を予測した場合、予測値が0〜1の範囲を超える可能性がある。また、残差が正規分布に従わず、等分散性も満たされない。これらの問題に対処するのがロジスティック回帰分析(logistic regression)である。
Key Concept: ロジスティック回帰分析(logistic regression) 二値の結果変数(0/1)の発生確率を予測する統計手法。予測値をロジット変換により実数全体(-∞〜+∞)にマッピングすることで、確率が0〜1の範囲に制約されることを保証する。一般化線形モデル(GLM)の一種である。
ロジット変換とモデル式¶
ロジスティック回帰では、結果が生起する確率 p を直接モデル化するのではなく、そのオッズ(odds = p / (1 - p))の自然対数——すなわちロジット(logit)——を線形予測子として表現する。
logit(p) = ln(p / (1 - p)) = b₀ + b₁X₁ + b₂X₂ + ... + bₖXₖ
このモデルでは、右辺は -∞ から +∞ の値をとりうるが、逆変換(ロジスティック関数)を適用すると予測確率は常に0〜1の範囲に収まる。
p = 1 / (1 + exp(-(b₀ + b₁X₁ + ... + bₖXₖ)))
パラメータの推定には最小二乗法ではなく最尤法(maximum likelihood estimation)が用いられる。
オッズ比の解釈¶
Key Concept: オッズ比(odds ratio, OR) ロジスティック回帰における偏回帰係数 b を指数変換した値 OR = exp(b)。予測変数が1単位増加したとき、結果が生起するオッズが何倍になるかを示す。
ロジスティック回帰の偏回帰係数 b はロジットスケール上の変化量であり、直観的な解釈が難しい。そのため、exp(b) をオッズ比として報告するのが一般的である。
| OR の値 | 解釈 |
|---|---|
| OR = 1 | 予測変数は結果の生起確率に影響しない |
| OR > 1 | 予測変数の増加に伴い結果の生起確率が上昇 |
| OR < 1 | 予測変数の増加に伴い結果の生起確率が低下 |
例えば、臨床研究で「反芻傾向(1点増加あたり)」のOR = 2.5 と推定された場合、「反芻傾向が1点高いと、うつ病を発症するオッズが2.5倍になる」と解釈する。
95%信頼区間も OR に対して算出・報告し、信頼区間が1を含まなければ効果は有意であると判断する。
ロジスティック回帰と線形回帰の比較¶
| 側面 | 線形回帰 | ロジスティック回帰 |
|---|---|---|
| 基準変数 | 連続変数 | 二値変数(0/1) |
| リンク関数 | 恒等関数(identity) | ロジット(logit) |
| 推定法 | 最小二乗法 | 最尤法 |
| 係数の解釈 | Y の変化量 | ログオッズの変化量、exp(b) でOR |
| モデルの適合度 | R², 調整済み R² | 擬似 R²(Nagelkerke R² 等)、分類精度 |
| 残差の分布 | 正規分布を仮定 | 二項分布(仮定不要) |
心理学研究での使用例¶
ロジスティック回帰は心理学研究において以下のような場面で頻繁に使用される。
- 臨床心理学: うつ病・不安障害などの診断(あり/なし)を予測する際に、リスク因子(幼少期の逆境体験、遺伝的要因、パーソナリティ特性等)の相対的重要性を評価する
- 認知心理学: 課題の正答・誤答を、刺激の特性や参加者の認知能力から予測する
- 健康心理学: 健康行動(喫煙の有無、運動習慣の有無)の規定因を検討する
- 発達心理学: 発達障害の有無を早期スクリーニング指標から予測する
なお、結果変数が3カテゴリ以上の名義変数の場合は多項ロジスティック回帰(multinomial logistic regression)、順序変数の場合は順序ロジスティック回帰(ordinal logistic regression)に拡張される。
まとめ¶
- 重回帰分析は複数の予測変数から基準変数を予測し、各予測変数の独自の寄与を偏回帰係数として評価する。標準化偏回帰係数 β により変数間の相対的影響力を比較できる。多重共線性はVIF/トレランスで診断し、回帰の仮定(線形性、残差の正規性・等分散性・独立性)を確認する必要がある
- 階層的回帰分析は理論的根拠に基づく変数投入順序を用い、R²変化量とF変化検定で各ステップの増分的予測力を評価する。探索的なステップワイズ回帰とは本質的に異なる
- 媒介分析はX → M → Yの因果メカニズムを検討し、ブートストラップ法による間接効果の検定が現在の標準手法である。Baron & Kenny (1986) の手順は歴史的に重要であるが、限界が認識されている
- 調整分析は交互作用項によりX → Yの関係が調整変数Wの水準で異なるかを検定し、単純傾斜分析で具体的パターンを記述する。Section 1の交互作用の概念を回帰の枠組みに拡張したものである
- ロジスティック回帰は二値結果変数を予測する手法であり、オッズ比(OR)による解釈が中心となる
- 次のセクションでは、因子分析・信頼性分析を扱い、心理尺度の構成概念妥当性と信頼性の評価手法を学ぶ
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 重回帰分析 | multiple regression | 複数の予測変数から1つの基準変数を予測する統計手法 |
| 偏回帰係数 | partial regression coefficient | 他の予測変数を統制した上での特定の予測変数の回帰係数 |
| 標準化偏回帰係数 | standardized partial regression coefficient (β) | 変数を標準化した上で算出される偏回帰係数。変数間の影響力比較に使用 |
| 重決定係数 | coefficient of determination (R²) | 基準変数の全変動のうちモデルで説明される割合 |
| 調整済みR² | adjusted R² | 予測変数の数とサンプルサイズで補正されたR² |
| 多重共線性 | multicollinearity | 予測変数間に高い相関が存在する状態 |
| VIF | variance inflation factor | 多重共線性の診断指標。VIF > 10で深刻とされる |
| トレランス | tolerance | 1/VIF。多重共線性の診断指標 |
| 階層的回帰分析 | hierarchical regression | 理論的根拠に基づき変数を段階的に投入する回帰分析 |
| R²変化量 | ΔR² (R-squared change) | 変数追加によるR²の増加分。増分的予測力を示す |
| F変化検定 | F-change test | R²変化量の統計的有意性を検定する手法 |
| ステップワイズ回帰 | stepwise regression | 統計的基準に基づき変数を自動選択する探索的回帰分析 |
| 媒介 | mediation | X → M → Y の因果連鎖。Xの効果がMを経由してYに伝達されるメカニズム |
| 媒介変数 | mediator | X と Y の間の因果メカニズムを伝達する変数 M |
| 間接効果 | indirect effect | 媒介変数を経由する効果(a × b) |
| 直接効果 | direct effect | 媒介変数を経由しないXからYへの効果(c') |
| ブートストラップ法 | bootstrap method | 復元抽出の反復により標本分布を経験的に構築する統計手法 |
| 調整 | moderation | X → Y の関係が調整変数 W の水準で異なること |
| 調整変数 | moderator | X と Y の関係の強さや方向を変える変数 W |
| 交互作用項 | interaction term | 2変数の積。回帰モデルで調整効果を検定するために投入される |
| 単純傾斜分析 | simple slope analysis | 調整変数の特定値での独立変数の効果を算出・検定する手法 |
| 条件付き間接効果 | conditional indirect effect / moderated mediation | 間接効果が調整変数の水準で異なるモデル |
| ロジスティック回帰分析 | logistic regression | 二値結果変数の生起確率を予測する統計手法 |
| ロジット | logit | オッズの自然対数。ln(p/(1-p)) |
| オッズ比 | odds ratio (OR) | 予測変数1単位増加に伴う結果生起オッズの変化倍率。exp(b) |
| 最尤法 | maximum likelihood estimation | データが観測される尤度を最大化するパラメータ推定法 |
| Johnson-Neyman法 | Johnson-Neyman technique | 単純傾斜が有意となる調整変数の値の範囲を算出する手法 |
確認問題¶
Q1: 重回帰分析における偏回帰係数と標準化偏回帰係数(β)の違いを説明し、それぞれがどのような場面で有用かを述べよ。
A1: 偏回帰係数(b)は、他の予測変数を統制した上で、特定の予測変数が1単位(元の測定単位)増加したときの基準変数の変化量を示す。予測変数の元の単位に依存するため、「IQが1点上がると成績が0.5点上がる」のような具体的な予測に有用である。一方、標準化偏回帰係数(β)は、すべての変数を標準化(平均0・標準偏差1)した上で算出されるため、単位に依存しない。したがって、「IQと学習時間のどちらが成績をより強く予測するか」といった予測変数間の相対的影響力の比較に有用である。研究報告ではbとβの両方を提示するのが標準的であり、bは実践的な予測に、βは変数間比較にそれぞれ用いる。
Q2: 多重共線性が重回帰分析の結果に及ぼす影響を説明し、その診断方法と対処法を述べよ。
A2: 多重共線性(予測変数間の高い相関)が深刻な場合、偏回帰係数の推定が不安定になる。具体的には、(1) 偏回帰係数の標準誤差が増大し有意性の検定が不安定になる、(2) 偏回帰係数の符号が理論的予測と逆転しうる、(3) 予測変数を1つ追加・除去するだけで他の偏回帰係数が大きく変動する。診断にはVIF(分散拡大係数)とトレランスを用いる。VIFは各予測変数を他の全予測変数から回帰したときのR²から算出され(VIF = 1/(1-Rⱼ²))、VIF > 10(保守的にはVIF > 5)が深刻な多重共線性を示す。トレランス = 1/VIFで、.10未満が問題とされる。対処法としては、(1) 相関の高い変数の一方を除外する、(2) 主成分分析等で合成得点を作成する、(3) リッジ回帰などの正則化手法を用いる、などがある。
Q3: Baron & Kenny (1986) の媒介分析の手順を説明し、その限界と、現在推奨されているブートストラップ法の利点を述べよ。
A3: Baron & Kennyの手順は4ステップからなる。(1) XがYを有意に予測する(総合効果cが有意)、(2) XがMを有意に予測する(パスaが有意)、(3) XとMを同時投入してYを予測した際にMの効果(パスb)が有意、(4) M投入後のXの直接効果c'がcより減少する(c'=0なら完全媒介、0<c'<cなら部分媒介)。限界として、(1) ステップ1でcの有意性を前提条件とするが、抑制効果(間接効果と直接効果が逆方向で相殺)の場合にcが非有意でも媒介は存在しうる、(2) 4条件すべてを要求するため検定力が低い、(3) 間接効果a×bの有意性を直接検定しておらず、a×bの標本分布は正規分布に従わないため通常のz検定は不適切。ブートストラップ法はデータからの復元抽出を多数回繰り返して間接効果の経験的分布を構築し、その信頼区間でゼロを含むかで有意性を判断する。非正規分布にロバストであり、検定力も高く、ステップ1のcの有意性を前提としないため、現在の標準手法とされる。
Q4: 調整分析において交互作用項を回帰モデルに投入する際、予測変数と調整変数を中心化することが推奨される理由を説明せよ。また、交互作用が有意であった場合に単純傾斜分析をどのように実施するかを述べよ。
A4: 中心化(各変数から平均値を減じる処理)は、交互作用項(X×W)と主効果項(X, W)の間の多重共線性を低減するために推奨される。中心化しない場合、X×WはXおよびWと高い相関を持ちやすく、偏回帰係数の推定が不安定になる。また、中心化後は主効果の偏回帰係数が「調整変数が平均値のときの効果」として解釈でき、意味が明確になる。なお、交互作用の有意性検定(b₃の検定)自体は中心化の影響を受けない。単純傾斜分析では、調整変数Wの特定の値(通常、平均値、平均+1SD、平均-1SD)において、Xの回帰係数(単純傾斜 = b₁ + b₃×w₀)を算出し、各水準で傾斜がゼロと有意に異なるかを検定する。これにより「Wが高いときXの効果は有意だが、Wが低いときは有意でない」といった調整パターンの具体的記述が可能になる。
Q5: ロジスティック回帰分析において、オッズ比(OR)が2.0であった場合の解釈を述べよ。また、線形回帰の代わりにロジスティック回帰を用いるべき状況と、その統計的根拠を説明せよ。
A5: OR=2.0は「予測変数が1単位増加すると、結果が生起するオッズが2.0倍になる」ことを意味する。例えば、ストレス得点が1点高い人は、うつ病を発症するオッズ(発症する確率/発症しない確率)が2倍であると解釈される。線形回帰の代わりにロジスティック回帰を用いるべき状況は、基準変数が二値(0/1)の場合である。統計的根拠として、(1) 線形回帰では予測値が0〜1の範囲を超えうるが、ロジスティック回帰はロジット変換により予測確率を常に0〜1に制約する、(2) 二値変数の残差は正規分布せず等分散でもないため線形回帰の仮定に違反するが、ロジスティック回帰は二項分布を前提とする一般化線形モデルであり、これらの仮定を必要としない、(3) パラメータ推定に最小二乗法ではなく最尤法を用いることで、二値データに対してより適切な推定を行う。