Module 2-4 - Section 3: 多変量解析の基礎¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 2-4: 心理統計法 II・研究法 |
| 前提セクション | Section 2(回帰分析) |
| 想定学習時間 | 5〜6時間 |
導入¶
Section 2では、複数の予測変数から基準変数を予測する重回帰分析と、変数間の因果メカニズムを検討する媒介分析・調整分析を学んだ。これらの手法は、予測変数と基準変数の関係を扱うものであったが、心理学研究ではより複雑な多変量データ構造を扱う場面が多い。
例えば、パーソナリティ研究において「外向性」「誠実性」といった構成概念を測定する場合、数十項目の質問紙への回答データが得られる。これらの多数の観測変数の背後に、どのような潜在的な次元が存在するのかを同定する必要がある。また、複数の変数間の複雑な因果関係を、測定誤差を考慮しつつ同時に検証したい場合もある。さらに、対象者を回答パターンの類似性に基づいてグループに分類したい場合もある。
本セクションでは、(1) 観測変数の背後にある潜在因子を同定する因子分析、(2) データの次元縮約を行う主成分分析、(3) 測定モデルと構造モデルを統合的に扱う構造方程式モデリング(SEM)、(4) 対象をデータの類似性に基づいて分類するクラスター分析を取り上げる。これらの多変量解析手法は、心理学における理論構築と検証の基盤をなすものである。
因子分析¶
因子分析の基本的考え方¶
心理学的な構成概念——知能、パーソナリティ特性、態度など——は直接観測できない。研究者はこれらの構成概念を、複数の質問項目への回答や行動指標といった観測変数(observed variable)を通じて間接的に測定する。因子分析(factor analysis)は、多数の観測変数間の相関パターンを分析し、その背後にある少数の潜在因子(latent factor)を同定する統計手法である。
Key Concept: 因子分析(factor analysis) 多数の観測変数間の相関構造を分析し、それらの共変動を説明する少数の潜在因子を同定する統計手法。観測変数の背後に共通の原因(潜在因子)が存在すると仮定し、観測変数の分散を共通因子による分散(共通性)と固有の分散(独自性)に分解する。
因子分析の基本モデルは以下のように表される。各観測変数 Xᵢ は、潜在因子 F₁, F₂, ..., Fₘ の線形結合と独自因子 eᵢ によって表現される。
Xᵢ = λᵢ₁F₁ + λᵢ₂F₂ + ... + λᵢₘFₘ + eᵢ
ここで λᵢⱼ は因子負荷量(factor loading)であり、観測変数 Xᵢ と因子 Fⱼ の関連の強さを示す。この点で因子分析は、回帰分析とは因果の方向が逆である——回帰分析では観測された予測変数から基準変数を予測するが、因子分析では潜在因子が観測変数を「生成する」というモデルを想定する。
因子分析はパーソナリティ心理学におけるビッグファイブ・モデルの方法論的基盤でもある(→ Module 2-3「パーソナリティ心理学」参照)。多数のパーソナリティ記述語に対する回答データに因子分析を適用し、観測変数の共変動パターンから5つの基本的な潜在因子(開放性、誠実性、外向性、協調性、神経症傾向)が繰り返し見出されたことが、ビッグファイブ理論の実証的根拠となっている。
graph TD
subgraph "因子分析の基本モデル"
F1["潜在因子 F₁"] -->|"λ₁₁"| X1["観測変数 X₁"]
F1 -->|"λ₂₁"| X2["観測変数 X₂"]
F1 -->|"λ₃₁"| X3["観測変数 X₃"]
F2["潜在因子 F₂"] -->|"λ₄₂"| X4["観測変数 X₄"]
F2 -->|"λ₅₂"| X5["観測変数 X₅"]
F2 -->|"λ₆₂"| X6["観測変数 X₆"]
e1["e₁"] --> X1
e2["e₂"] --> X2
e3["e₃"] --> X3
e4["e₄"] --> X4
e5["e₅"] --> X5
e6["e₆"] --> X6
end
探索的因子分析(EFA)¶
Key Concept: 探索的因子分析(exploratory factor analysis, EFA) 観測データの相関構造から、因子の数や因子と観測変数の対応関係を探索的に見出す因子分析。事前に因子構造の仮説を設定せず、データから帰納的に因子構造を導出する。
EFAは、因子構造に関する明確な仮説がない段階で用いられる。例えば、新しい心理尺度を開発する際に、質問項目群がいくつの因子にまとまるかを探索する場面で使用される。EFAの手順は主に以下の3段階からなる。
第1段階: 因子数の決定
抽出すべき因子の数を適切に決定することは、EFAにおいて最も重要な判断の一つである。因子数の過少推定は重要な次元を見落とす原因となり、過大推定は解釈困難な因子の抽出につながる。
| 基準 | 方法 | 特徴 |
|---|---|---|
| カイザー基準(Kaiser criterion) | 固有値 > 1 の因子を採用 | 過大推定の傾向が強く、現在では単独使用は非推奨 |
| スクリープロット(scree plot) | 固有値の減少曲線の「肘」で判断 | 視覚的・主観的判断を含むが実用的 |
| 平行分析(parallel analysis) | ランダムデータの固有値と比較し、実データの固有値がランダムデータを上回る因子を採用 | 最も推奨される基準の一つ。シミュレーション研究で精度が高い |
| MAP基準(minimum average partial) | 偏相関行列の平均二乗偏相関が最小となる因子数 | 平行分析と並んで推奨される |
現在の方法論的合意としては、カイザー基準のみに依拠することは避け、平行分析とMAP基準を中心に、スクリープロットを補助的に参照して総合的に判断することが推奨されている。
第2段階: 因子の回転
初期解として得られる因子は数学的に一意ではなく、回転(rotation)によって解釈しやすい因子構造を得る。回転には大きく2つの方法がある。
Key Concept: 因子回転(factor rotation) 因子分析の初期解を、解釈可能性を高めるために変換する手続き。直交回転(因子間の相関をゼロに制約)と斜交回転(因子間の相関を許容)の2種類がある。
| 回転法 | 因子間相関 | 代表的手法 | 特徴 |
|---|---|---|---|
| 直交回転(orthogonal rotation) | 0に制約(因子間は独立) | バリマックス回転(varimax) | 解釈が単純で報告しやすいが、心理学的構成概念が完全に独立という仮定は非現実的なことが多い |
| 斜交回転(oblique rotation) | 自由に推定(因子間相関を許容) | プロマックス回転(promax)、ジオミン回転(geomin) | 因子間相関を許容するため心理学データにより適合的。因子間相関が小さければ直交回転と類似した結果を与える |
心理学的な構成概念は相互に独立であることが稀であり(例えば外向性と協調性には正の相関がある)、多くの方法論者は斜交回転の使用を推奨している。斜交回転の結果、因子間相関が十分に小さい(例: |r| < .30)ことが確認されれば、直交回転の使用も正当化されうる。
第3段階: 因子負荷量の解釈
Key Concept: 因子負荷量(factor loading) 観測変数と潜在因子の関連の強さを示す係数。直交回転では観測変数と因子の相関に等しい。一般に |λ| ≥ .40 を実質的な負荷の基準とすることが多い。
各因子に高い負荷量を示す観測変数の内容を検討し、因子の意味を解釈する。理想的には、各観測変数が1つの因子にのみ高い負荷を示し(単純構造, simple structure)、他の因子への負荷は小さいことが望ましい。複数の因子に高い負荷を示す項目(交差負荷項目, cross-loading item)は、因子構造の解釈を複雑にするため、項目の削除や修正が検討される。
確認的因子分析(CFA)¶
Key Concept: 確認的因子分析(confirmatory factor analysis, CFA) 理論的仮説に基づいて因子構造を事前に指定し、そのモデルが観測データにどの程度適合するかを検証する因子分析。構造方程式モデリング(SEM)の枠組みで実施される。
EFAが因子構造を「発見する」手法であるのに対し、CFAは因子構造の仮説を「検証する」手法である。CFAでは、(1) 因子の数、(2) 各観測変数がどの因子に負荷するか、(3) 因子間の相関の有無、を事前に指定したモデルを設定し、そのモデルとデータの適合度を評価する。
graph LR
subgraph "EFA vs CFA"
direction TB
E["探索的因子分析(EFA)"]
E1["仮説なし"]
E2["データから因子構造を発見"]
E3["尺度開発の初期段階"]
E --> E1
E --> E2
E --> E3
C["確認的因子分析(CFA)"]
C1["仮説あり"]
C2["モデルとデータの適合度を検証"]
C3["尺度の妥当性検証・理論検証"]
C --> C1
C --> C2
C --> C3
end
CFAにおけるモデルの適合度は、以下の指標を組み合わせて評価する。
| 適合度指標 | 基準 | 特徴 |
|---|---|---|
| χ²検定(chi-square test) | p > .05 で適合 | サンプルサイズに敏感。大標本では些細な不適合でも有意になりやすい |
| RMSEA(root mean square error of approximation) | ≤ .06 で良好、≤ .08 で許容 | モデルの近似度。自由度で調整されるためモデル間比較に有用 |
| CFI(comparative fit index) | ≥ .95 で良好、≥ .90 で許容 | 独立モデル(変数間に相関なし)からの改善度 |
| TLI(Tucker-Lewis index) | ≥ .95 で良好、≥ .90 で許容 | CFIと類似するが自由度による罰則あり |
| SRMR(standardized root mean square residual) | ≤ .08 で良好 | 観測された相関と予測される相関の残差の平均 |
Hu & Bentler(1999)が提案した上記の基準値は広く用いられているが、これらは絶対的な閾値ではなく、モデルの複雑さ、サンプルサイズ、データの性質を考慮した総合的な判断が必要である。複数の指標を組み合わせて評価すること(例: CFI ≥ .95 かつ SRMR ≤ .08)が推奨されている。
EFAとCFAの使い分け¶
| 場面 | 推奨される手法 |
|---|---|
| 新しい尺度を開発し、項目がどのような因子にまとまるか未知 | EFA |
| 先行研究で確立された因子構造を新しいサンプルで検証 | CFA |
| 既存尺度を異なる文化・集団に適用し、因子構造の等価性を検証 | CFA(測定不変性検定) |
| EFAで見出された因子構造を独立サンプルで交差妥当化 | CFA |
理想的な尺度開発プロセスでは、まずEFAによって探索的に因子構造を同定し、次に独立のサンプルでCFAによってその構造を確認するという2段階の手順を踏む。同一サンプルでEFAとCFAの両方を行うことは、循環論法(データから発見した構造を同じデータで確認する)に陥るため方法論的に不適切である。
主成分分析¶
主成分分析の概念¶
Key Concept: 主成分分析(principal component analysis, PCA) 多数の観測変数を、分散を最大限に説明する少数の合成変数(主成分)に要約する次元縮約の手法。因子分析と異なり、潜在的な構造の推定ではなく、データの効率的な要約を目的とする。
主成分分析は、相関のある多数の変数を、相関のない少数の主成分(principal component)に変換する。第1主成分は元の変数群の分散を最も多く説明する方向を捉え、第2主成分は第1主成分と直交する方向で残りの分散を最大限に説明する、というように順次主成分が抽出される。
数学的には、主成分は観測変数の線形結合として表される。
PC₁ = w₁₁X₁ + w₁₂X₂ + ... + w₁ₚXₚ
ここで w は重み(ウェイト)であり、データの共分散行列(または相関行列)の固有ベクトルに対応する。各主成分が説明する分散の割合は、対応する固有値の全固有値合計に対する比率で表される。
因子分析との本質的違い¶
因子分析とPCAは手続き上類似しており、実務的にも類似した結果を返すことが多いが、理論的基盤は本質的に異なる。
| 側面 | 因子分析 | 主成分分析 |
|---|---|---|
| 目的 | 観測変数の背後にある潜在構造の推定 | 観測変数の次元縮約・データの効率的要約 |
| モデル | 潜在因子が観測変数を「生成する」(因果モデル) | 観測変数から合成変数を「構成する」(要約モデル) |
| 分散の扱い | 共通分散のみを分析対象とする(独自分散と誤差分散を除外) | 全分散(共通分散+独自分散+誤差分散)を分析対象とする |
| 誤差 | 明示的に誤差項を含む(Xᵢ = Σλᵢⱼ Fⱼ + eᵢ) | 誤差項を含まない(PCは観測変数の正確な線形結合) |
| 結果の一般化 | 潜在構造は母集団に一般化可能と仮定 | サンプル固有の要約であり、一般化は保証されない |
心理学研究では、構成概念の構造を検討する目的——例えば、パーソナリティ質問紙がいくつの潜在次元を測定しているか——には因子分析が適切である。PCAは、多数の変数を少数の要約変数に縮約したい場合(例: 多数の生理指標を少数の合成指標にまとめる)や、多重共線性への対処として変数を合成する場合(→ Section 2参照)に用いられる。
しかしながら、実際の心理学研究では、PCAが因子分析の代替として(誤って)使用される場面が少なくない。変数の背後に潜在的な構成概念を想定するのであれば、因子分析を用いるべきであるという点は、方法論的に重要な区別である。
構造方程式モデリング(SEM)¶
SEMの概念¶
Section 2で学んだ回帰分析・媒介分析・調整分析は、観測変数間の関係を扱う手法であった。しかし、心理学的な変数は直接観測できない構成概念であることが多く、観測変数には必ず測定誤差が含まれる。回帰分析では測定誤差を考慮しないため、変数間の関係が過小推定(減衰, attenuation)される問題がある。
Key Concept: 構造方程式モデリング(structural equation modeling, SEM) 潜在変数を用いた測定モデル(CFA)と、変数間の因果関係を表す構造モデル(パス解析)を統合的に扱う統計的枠組み。測定誤差を明示的にモデル化し、複数の従属変数を含む複雑な因果モデルの同時検証を可能にする。
SEMは、(1) 観測変数と潜在変数の関係を指定する測定モデル(measurement model)と、(2) 潜在変数間の因果関係を指定する構造モデル(structural model)の2つの構成要素からなる。
graph TD
subgraph "測定モデル"
F1["潜在変数:<br/>ストレス"] --> X1["項目1"]
F1 --> X2["項目2"]
F1 --> X3["項目3"]
F2["潜在変数:<br/>抑うつ"] --> Y1["項目4"]
F2 --> Y2["項目5"]
F2 --> Y3["項目6"]
end
subgraph "構造モデル"
F1 -->|"因果パス"| F2
end
パス図の読み方¶
SEMでは、モデルの構造をパス図(path diagram)として視覚的に表現する。パス図の記号規約は以下の通りである。
| 記号 | 意味 |
|---|---|
| 楕円(○) | 潜在変数(直接観測できない構成概念) |
| 長方形(□) | 観測変数(実際に測定されたデータ) |
| 一方向矢印(→) | 因果的影響(回帰パス)または因子負荷 |
| 双方向矢印(↔) | 相関(因果関係を仮定しない共変動) |
| 小円(○→□) | 誤差変数(測定誤差または残差) |
パス図を読む際は、(1) 潜在変数から観測変数への矢印が測定モデル部分(各潜在変数がどの観測変数に反映されるか)を表し、(2) 潜在変数間の矢印が構造モデル部分(構成概念間の因果関係仮説)を表すことを理解する。
SEMの実施手順¶
SEMの実施は、以下のステップで進められる。
- モデルの特定(model specification): 理論的仮説に基づき、潜在変数・観測変数間の関係をパス図として記述する
- モデルの識別(model identification): モデルが統計的に推定可能か(自由パラメータの数がデータから得られる情報量以下か)を確認する
- パラメータの推定(estimation): 最尤法(ML)などを用いてパス係数等のパラメータを推定する
- 適合度の評価(model evaluation): CFAと同じ適合度指標(χ², RMSEA, CFI, TLI, SRMR)でモデルとデータの適合を評価する
- モデルの修正(model modification): 適合度が不十分な場合、理論的根拠に基づいてモデルを修正する(修正指標の盲目的な使用は不適切)
graph LR
A["1. モデルの特定<br/>(理論的仮説)"] --> B["2. モデルの識別<br/>(推定可能性の確認)"]
B --> C["3. パラメータ推定<br/>(最尤法等)"]
C --> D["4. 適合度評価<br/>(χ², RMSEA, CFI等)"]
D --> E{"適合良好?"}
E -->|Yes| F["5. 結果の解釈<br/>・報告"]
E -->|No| G["5. モデル修正<br/>(理論的根拠に基づく)"]
G --> C
SEMの利点と限界¶
利点:
- 測定誤差の考慮: 潜在変数を用いることで、観測変数に含まれる測定誤差を明示的にモデル化し、変数間の関係の減衰を補正できる。これにより、観測変数を直接用いる回帰分析よりも正確な推定が期待される
- 複雑なモデルの同時検証: 複数の従属変数、媒介変数、調整変数を含む複雑な因果モデルを、一つの統合的枠組みで同時に検証できる。Section 2で扱った媒介分析も、SEMの枠組みで測定誤差を考慮しつつ実施できる
- 間接効果の検定: 潜在変数レベルでの間接効果を直接推定・検定できる
- モデル比較: 競合する理論モデルの相対的な適合度を比較できる(ネストモデルではχ²差検定、非ネストモデルではAIC・BIC)
限界:
- 大標本の必要性: 安定したパラメータ推定のために比較的大きなサンプルサイズが必要である。目安として、パラメータ数の5〜10倍、あるいは最低でもN = 200程度が推奨されることが多いが、モデルの複雑さやデータの性質によって必要なサンプルサイズは異なる
- 因果推論の限界: SEMは「因果モデル」を検証する枠組みを提供するが、モデルの適合度が良好であることは因果関係の証明を意味しない。適合度はモデルとデータの整合性を示すのみであり、同じデータに等しく適合する代替モデル(equivalent model)が存在しうる。因果推論はモデルの仮定(因果の方向の指定)に依存しており、横断データでは因果の方向を確定できない
- モデルの正しさの非証明性: 適合度指標はモデルの「棄却」には使えるが、モデルが「正しい」ことの証明にはならない。あるモデルがデータと整合的であっても、それ以外のモデルが正しい可能性は排除できない
- 前提条件: 多変量正規性の仮定、連続変数への適用が基本(順序変数への適用には重み付き最小二乗法(WLSMV)などの代替推定法が必要)
クラスター分析¶
クラスター分析の概念¶
ここまで扱った手法——因子分析、PCA、SEM——はいずれも「変数」に焦点を当て、変数間の関係構造を分析するものであった。一方、クラスター分析(cluster analysis)は「対象(ケース・個人)」に焦点を当て、データの類似性に基づいて対象をグループ(クラスター)に分類する手法である。
Key Concept: クラスター分析(cluster analysis) 対象(個人・ケース)を、複数の変数上のプロファイルの類似性に基づいて、内部的に同質で外部的に異質なグループ(クラスター)に分類する統計手法の総称。
心理学研究では、例えば以下のような場面でクラスター分析が用いられる。
- パーソナリティのプロファイル分類: ビッグファイブの5因子得点パターンに基づいて個人を類型化し、「レジリエント型」「過剰統制型」「低統制型」といったパーソナリティタイプを同定する
- 臨床心理学: 症状プロファイルに基づく臨床群のサブタイプ分類
- 発達心理学: 発達軌跡の類型化
階層的クラスター分析¶
Key Concept: 階層的クラスター分析(hierarchical cluster analysis) 対象間の距離(非類似度)に基づいて、段階的にクラスターを統合(凝集法)または分割していく手法。統合過程をデンドログラム(樹形図)として視覚化でき、クラスター数を事後的に決定できる。
凝集法(agglomerative method)では、まず各対象を1つのクラスターとし、最も類似した2つのクラスターを順次統合していく。クラスター間の距離の定義法には以下のものがある。
| 結合法 | 距離の定義 | 特徴 |
|---|---|---|
| 最短距離法(single linkage) | 2クラスター間の最も近い対象間の距離 | 鎖状のクラスターを生成しやすい |
| 最長距離法(complete linkage) | 2クラスター間の最も遠い対象間の距離 | コンパクトなクラスターを生成 |
| 群平均法(average linkage) | 2クラスター間の全対象ペアの距離の平均 | バランスの取れた結果 |
| ウォード法(Ward's method) | 統合によるクラスター内分散の増加量を最小化 | 等サイズのコンパクトなクラスターを生成しやすく、心理学で最も広く使用される |
デンドログラムの高さ(統合距離)が大きく変化する箇所で切断することで、適切なクラスター数を決定する。
非階層的クラスター分析(k-means法)¶
Key Concept: k-means法(k-means clustering) 事前に指定したk個のクラスターに対象を割り当て、各クラスターの重心と対象の距離の総和を最小化するようにクラスター割り当てを反復的に更新する手法。
k-means法のアルゴリズムは以下の通りである。
- k個の初期重心をランダムに設定する(または別の方法で初期化する)
- 各対象を最も近い重心のクラスターに割り当てる
- 各クラスターの重心を再計算する
- 割り当てが変化しなくなるまで手順2-3を反復する
k-means法は計算が高速であり大規模データに適しているが、(1) クラスター数kを事前に指定する必要がある、(2) 初期値依存性がある(異なる初期重心から異なる解が得られうる)、(3) 球形のクラスターを仮定している、という制約がある。クラスター数の決定にはエルボー法(クラスター内分散の減少が緩やかになる点)やシルエット分析(各対象の分類の適切さを定量化)が用いられる。
実務的には、階層的クラスター分析でおおよそのクラスター数を決定し、その後k-means法で最終的なクラスター割り当てを行う2段階アプローチが採用されることもある。
潜在クラス分析(LCA)¶
Key Concept: 潜在クラス分析(latent class analysis, LCA) 観測変数の応答パターンの背後に潜在的なカテゴリカル変数(潜在クラス)を仮定し、混合分布モデルに基づいて対象を確率的にクラスに分類するモデルベースの手法。
従来のクラスター分析(k-means法、階層的手法)は距離に基づくヒューリスティックな手法であり、統計的モデルに基づいていないため、クラスター数の決定に明確な統計的基準がない。これに対しLCAは、確率モデルに基づく分類手法であり、以下の利点を持つ。
- モデル選択基準: AIC、BIC、調整済みBICなどの情報量基準によりクラス数を統計的に比較できる
- 確率的分類: 各個人の各クラスへの所属確率が推定されるため、分類の不確実性を定量化できる
- 適合度の評価: エントロピー指標でモデルの分類精度を評価できる
連続変数を扱う場合は、LCAの連続変数版である潜在プロファイル分析(latent profile analysis, LPA)が用いられる。近年の心理学研究では、人指向アプローチ(person-oriented approach)の一環として、LCA/LPAの使用が急速に増加している。
graph TD
subgraph "クラスター分析手法の分類"
A["クラスター分析"] --> B["距離ベースの手法"]
A --> C["モデルベースの手法"]
B --> D["階層的クラスター分析<br/>(ウォード法等)"]
B --> E["非階層的クラスター分析<br/>(k-means法)"]
C --> F["潜在クラス分析(LCA)<br/>(カテゴリカル変数)"]
C --> G["潜在プロファイル分析(LPA)<br/>(連続変数)"]
end
まとめ¶
- 因子分析は、多数の観測変数の背後にある潜在因子を同定する手法である。探索的因子分析(EFA)はデータから因子構造を帰納的に導出し、確認的因子分析(CFA)は理論的仮説に基づく因子構造をデータで検証する。因子数の決定には平行分析やMAP基準が推奨され、心理学データには斜交回転の使用が一般的に適切である
- 主成分分析(PCA)はデータの次元縮約を目的とする手法であり、因子分析とは理論的基盤が異なる。PCAは全分散を対象とし潜在構造を仮定しないのに対し、因子分析は共通分散のみを分析対象とし潜在因子の存在を仮定する。構成概念の構造を検討する目的には因子分析を用いるべきである
- 構造方程式モデリング(SEM)は、測定モデル(CFA)と構造モデル(パス解析)を統合的に扱い、測定誤差を考慮した上で複雑な因果モデルを同時検証する。ただし、適合度の良好さは因果関係の証明を意味せず、因果推論はモデルの仮定に依存する
- クラスター分析は、変数ではなく対象(個人)に焦点を当て、データの類似性に基づいてグループ分類を行う。距離ベースの手法(階層的クラスター分析、k-means法)とモデルベースの手法(LCA/LPA)があり、後者は統計的にクラス数を評価できる利点を持つ
- 次のセクション(Section 4)では、研究デザインの問題——内的・外的妥当性、交絡変数の統制、準実験デザイン、縦断研究——を扱い、データ分析の前提となる研究設計の方法論を学ぶ
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 因子分析 | factor analysis | 多数の観測変数間の相関構造から少数の潜在因子を同定する統計手法 |
| 潜在因子 | latent factor | 直接観測できないが、観測変数の共変動パターンから推定される構成概念 |
| 因子負荷量 | factor loading | 観測変数と潜在因子の関連の強さを示す係数 |
| 探索的因子分析 | exploratory factor analysis (EFA) | 因子構造の仮説なしにデータから帰納的に因子を導出する手法 |
| 確認的因子分析 | confirmatory factor analysis (CFA) | 仮説に基づく因子構造のモデルとデータの適合度を検証する手法 |
| スクリープロット | scree plot | 固有値の減少パターンを視覚化し因子数を判断するための図 |
| 平行分析 | parallel analysis | ランダムデータの固有値と比較して因子数を決定する方法 |
| MAP基準 | minimum average partial | 偏相関の平均二乗が最小となる因子数を選択する基準 |
| 直交回転 | orthogonal rotation | 因子間の相関をゼロに制約する回転法(代表: バリマックス) |
| 斜交回転 | oblique rotation | 因子間の相関を許容する回転法(代表: プロマックス) |
| 単純構造 | simple structure | 各観測変数が1因子にのみ高い負荷を示す理想的な因子構造 |
| 適合度指標 | fit indices | CFA/SEMにおけるモデルとデータの適合度を定量化する統計量 |
| RMSEA | root mean square error of approximation | モデルの近似誤差を示す適合度指標。≤ .06で良好 |
| CFI | comparative fit index | 独立モデルからの改善度を示す適合度指標。≥ .95で良好 |
| TLI | Tucker-Lewis index | 自由度による罰則を含む適合度指標。≥ .95で良好 |
| SRMR | standardized root mean square residual | 残差の標準化平均平方根。≤ .08で良好 |
| 主成分分析 | principal component analysis (PCA) | 分散を最大限に説明する少数の合成変数にデータを縮約する手法 |
| 主成分 | principal component | PCAにおいて抽出される、観測変数の線形結合による合成変数 |
| 構造方程式モデリング | structural equation modeling (SEM) | 測定モデルと構造モデルを統合的に扱う統計的枠組み |
| 測定モデル | measurement model | 潜在変数と観測変数の関係を指定するモデル部分(CFA) |
| 構造モデル | structural model | 潜在変数間の因果関係を指定するモデル部分(パス解析) |
| パス図 | path diagram | SEMにおいて変数間の関係を図示したもの |
| クラスター分析 | cluster analysis | 対象を類似性に基づいてグループに分類する手法の総称 |
| 階層的クラスター分析 | hierarchical cluster analysis | 段階的にクラスターを統合・分割する手法 |
| ウォード法 | Ward's method | クラスター内分散の増加量を最小化する結合法 |
| k-means法 | k-means clustering | k個のクラスター重心との距離を最小化する非階層的手法 |
| 潜在クラス分析 | latent class analysis (LCA) | 潜在的カテゴリカル変数を仮定するモデルベースの分類手法 |
| 潜在プロファイル分析 | latent profile analysis (LPA) | 連続変数を扱うLCAの拡張 |
| デンドログラム | dendrogram | 階層的クラスター分析の統合過程を樹形図として表現したもの |
確認問題¶
Q1: 因子分析と主成分分析の目的・前提・分散の扱い方の違いを説明し、心理学研究において構成概念の構造を検討する際にどちらを用いるべきかを論じよ。
A1: 因子分析は、多数の観測変数の背後にある潜在因子を推定することを目的とし、「潜在因子が観測変数を生成する」という因果モデルを前提とする。分析対象は観測変数の共通分散のみであり、独自分散と誤差分散は分析から除外される。一方、主成分分析は、データの次元縮約(効率的な要約)を目的とし、潜在的な構造は仮定しない。観測変数の全分散(共通分散+独自分散+誤差分散)を分析対象とし、誤差項を含まない。心理学研究において「外向性」「不安」といった構成概念の構造を検討する場合、それらの構成概念は直接観測できない潜在的な原因であり、質問項目への回答を「生成する」と考えるのが理論的に適切である。したがって、潜在構造の推定を目的とする因子分析を用いるべきであり、PCAは構成概念の構造検討には不適切である。
Q2: 探索的因子分析(EFA)において因子数を決定する際、カイザー基準のみに依拠することが推奨されない理由を説明し、現在推奨されている方法を述べよ。
A2: カイザー基準(固有値 > 1の因子を採用)は、因子数を過大推定する傾向が強い。固有値1は、1つの変数が持つ分散と等しいため、「1変数分以上の分散を説明する因子のみ保持する」という論理に基づくが、サンプリング変動やサンプルサイズの影響を考慮しておらず、特に変数の数が多い場合に不必要な因子を多く抽出してしまう。シミュレーション研究においてもその精度は低いことが示されている。現在推奨されている方法は、(1) 平行分析(実データの固有値をランダムデータの固有値と比較し、ランダムデータを上回る因子を採用する方法で、シミュレーション研究で高い精度が確認されている)、(2) MAP基準(偏相関行列の平均二乗偏相関が最小となる因子数を選択する基準)の2つを中心に、スクリープロットを補助的に参照して総合的に判断することである。
Q3: 構造方程式モデリング(SEM)が通常の回帰分析(パス解析)に対して持つ利点を述べた上で、SEMの適合度が良好であっても因果関係を証明したとは言えない理由を説明せよ。
A3: SEMの主な利点は以下の3点である。(1) 潜在変数を用いることで測定誤差を明示的にモデル化し、観測変数を直接用いる回帰分析では生じる変数間関係の減衰(測定誤差による過小推定)を補正できる。(2) 複数の従属変数や媒介変数を含む複雑な因果モデルを一つの統合的枠組みで同時に検証できる。(3) 測定モデルの適切さ(構成概念が意図通りに測定されているか)と構造モデルの適切さ(構成概念間の関係が理論通りか)を同時に評価できる。しかし、SEMの適合度が良好であっても因果関係の証明にはならない。理由は、(1) 適合度指標はモデルが予測する共分散行列と観測された共分散行列の一致度を評価するものであり、同じデータに等しく適合する代替モデル(等価モデル)が複数存在しうる。したがって、あるモデルの適合が良いことは、他のモデルの排除を意味しない。(2) 因果関係の方向の指定はデータから決定されるのではなく、研究者の理論的仮定によるものである。横断データでは「X→Y」と「Y→X」の両モデルが同等に適合しうるため、時間的先行性(縦断データ)や実験的操作なしに因果の方向を確定できない。
Q4: 心理学研究においてクラスター分析を用いてパーソナリティの類型を同定する場面を想定し、階層的クラスター分析(ウォード法)とk-means法の手順をそれぞれ説明せよ。また、潜在クラス分析(LCA)/ 潜在プロファイル分析(LPA)がこれらの距離ベースの手法に対して持つ方法論的利点を述べよ。
A4: ビッグファイブの5因子得点データから個人をパーソナリティタイプに分類する場合を想定する。ウォード法では、まず各個人を1つのクラスターとし、クラスター内分散の増加量が最小となる2つのクラスターを順次統合していく。統合過程はデンドログラムとして可視化され、統合距離が大きく跳躍する箇所で切断してクラスター数を決定する。k-means法では、事前にクラスター数kを指定し(例: k=3)、ランダムに初期重心を設定後、各個人を最も近い重心のクラスターに割り当て、重心を再計算し、割り当てが収束するまで反復する。クラスター数の決定にはエルボー法やシルエット分析を用いる。実務的には、ウォード法でおおよそのクラスター数を定めた後、k-means法で最終的な割り当てを行う2段階アプローチもある。LCA/LPAの方法論的利点は、(1) 確率モデルに基づくため、AIC・BICなどの情報量基準によりクラス数を統計的に比較・選択できる(距離ベースの手法にはこのような統計的基準がない)、(2) 各個人の各クラスへの所属確率が推定されるため分類の不確実性を定量化できる(距離ベースの手法では各個人は1つのクラスターに確定的に割り当てられる)、(3) エントロピー指標で分類精度を評価できる、といった点である。
Q5: ある研究者が、新しい30項目のストレス対処方略尺度を開発し、同一サンプルでEFAを行って3因子構造を確認した後、同じサンプルでCFAを行って適合度が良好であったと報告した。この手順の方法論的問題を指摘し、適切な手順を提案せよ。
A5: この手順の方法論的問題は、同一サンプルでEFAとCFAの両方を実施している点である。EFAはデータから帰納的に因子構造を「発見する」手法であり、その結果はサンプル固有の偶然変動を反映している可能性がある。同じサンプルでCFAを行うことは、データから見出した構造を同じデータで「確認する」ことになり、循環論法(circular reasoning)に陥る。データに内在する偶然の変動がEFAで因子構造に反映され、CFAでもその変動が適合度を高める方向に作用するため、見かけ上の適合度が過大評価される。適切な手順としては、(1) サンプルを2つにランダム分割し(十分なサンプルサイズがある場合)、一方のサブサンプルでEFAを実施し、他方のサブサンプルでCFAを実施する方法(交差妥当化, cross-validation)、または (2) 最初のサンプルでEFAを実施して因子構造を同定し、独立した新しいサンプルを収集してCFAで因子構造を確認する方法が推奨される。