Module 2-3 - Section 3: パーソナリティの測定¶

セクション情報¶

項目	内容
モジュール	Module 2-3: パーソナリティ心理学・個人差
前提セクション	Section 1（パーソナリティ理論）, Section 2（特性論）
想定学習時間	3〜4時間

導入¶

Section 2では、ビッグファイブやHEXACOに代表される特性モデルの理論的枠組みを検討した。しかし、パーソナリティの特性次元上に個人を位置づけるためには、個人差を定量的に測定する方法論が不可欠である。パーソナリティの測定は単なる技術的問題にとどまらず、「パーソナリティとは何か」という理論的問いと密接に結びついている。たとえば、自己報告式質問紙は特性論的枠組みを前提とし、投影法は精神力動的アプローチの理論的仮定に依拠する。

本セクションでは、パーソナリティ測定の基本概念（信頼性と妥当性）を整理した後、主要な測定方法——質問紙法、投影法、行動観察・他者報告——を科学的評価とともに検討する。最後に、複数の情報源を統合する多特性多方法行列（MTMM）の枠組みを導入し、パーソナリティ測定における方法論的課題への統合的アプローチを論じる。

パーソナリティ測定の基本概念¶

信頼性¶

Key Concept: 信頼性（reliability） 測定の一貫性・安定性を示す指標。同一の対象を繰り返し測定したとき、どの程度一致した結果が得られるかを表す。信頼性が低い測定は、真のパーソナリティの個人差ではなく、測定誤差を反映している可能性がある。

パーソナリティ測定において、信頼性（reliability）はあらゆる妥当性の前提条件となる。信頼性のない測定は、原理的に妥当でありえない。信頼性の主要な形態は以下の2つである。

内的整合性（internal consistency） は、一つの尺度を構成する複数の項目が同一の構成概念を一貫して測定しているかを評価する。最も一般的な指標はCronbachのアルファ係数（Cronbach's alpha: α）であり、α ≧ .70が一般的な許容基準、α ≧ .80が望ましい水準とされる。たとえばNEO-PI-R（→ Section 2参照）の各ファセット尺度は概ねα = .70-.80の範囲にあり、5つの領域尺度はα = .86-.92の範囲にある。近年では、αが一定の条件下で内的整合性を過小推定する問題が指摘され、マクドナルドのオメガ係数（McDonald's omega: ω）が代替指標として推奨される場合もある。

再検査信頼性（test-retest reliability） は、同一の被検者に同一の尺度を一定期間をおいて2回実施したとき、得点間の相関として評価される。パーソナリティ特性は時間的に安定した構成概念であるから、適切に測定されていれば高い再検査信頼性を示すはずである。ビッグファイブの尺度は、数週間から数か月の間隔でr = .80-.90程度の再検査信頼性を示すことが多い。ただし、数年以上の長期にわたる安定性は、測定の信頼性と特性そのものの変化の両方を反映するため、区別に注意が必要である。

妥当性¶

Key Concept: 妥当性（validity） 測定が「測定しようとしているものを実際に測定しているか」の程度。構成概念妥当性・基準関連妥当性・内容妥当性に区分される。信頼性は妥当性の必要条件であるが十分条件ではない——信頼性が高くても、測定対象が意図した構成概念と異なっている可能性がある。

妥当性（validity）には複数の側面がある。

構成概念妥当性（construct validity） は、測定がその背後にある理論的構成概念（construct）を適切に反映しているかを包括的に評価するものであり、妥当性の中核概念とみなされる。構成概念妥当性は、以下の収束的妥当性と弁別的妥当性を包含する。

収束的妥当性（convergent validity）：同一の構成概念を測定する異なる方法間の相関が高いこと。たとえば外向性の自己報告と外向性の他者報告の間に高い相関が認められれば、収束的妥当性が示される
弁別的妥当性（discriminant validity）：異なる構成概念を測定するもの同士の相関が低いこと。たとえば外向性尺度と誠実性尺度の間の相関が低ければ、両者が弁別的であることが示される

基準関連妥当性（criterion-related validity） は、測定得点が外的基準（criterion）をどの程度予測するかを評価する。同時点での基準との相関を併存的妥当性（concurrent validity）、将来の基準との相関を予測的妥当性（predictive validity） と呼ぶ。Section 2で検討したビッグファイブと人生の帰結（学業成績、職業的パフォーマンス等）との関連は、予測的妥当性の証拠に相当する。

内容妥当性（content validity） は、測定の項目群が構成概念の内容領域を十分に網羅しているかを評価する。たとえば、外向性を測定する尺度が社交性のみに偏り、活動性や自己主張性を含んでいなければ、内容妥当性に問題がある。

graph TD
    subgraph "信頼性と妥当性の関係"
        REL["信頼性（reliability）"]
        VAL["妥当性（validity）"]
        REL -->|"必要条件"| VAL
        VAL -.->|"十分条件ではない"| REL
    end
    subgraph "信頼性の形態"
        IC["内的整合性<br>（Cronbach α, McDonald ω）"]
        TRT["再検査信頼性<br>（test-retest）"]
    end
    subgraph "妥当性の形態"
        CV["構成概念妥当性"]
        CRV["基準関連妥当性"]
        COV["内容妥当性"]
        CONV["収束的妥当性"]
        DISC["弁別的妥当性"]
    end
    REL --- IC
    REL --- TRT
    VAL --- CV
    VAL --- CRV
    VAL --- COV
    CV --- CONV
    CV --- DISC

自己報告法の利点と限界¶

パーソナリティの測定方法として最も広く用いられるのが自己報告法（self-report method）である。自己報告法は、被検者自身にパーソナリティに関する質問に回答させる方法であり、実施の効率性、標準化の容易さ、大規模データの収集可能性などの実際的利点を持つ。また、自分自身のパーソナリティについて最もアクセスしやすいのは本人であるという前提に基づく。

しかし、自己報告法には以下の系統的なバイアスが存在する。

Key Concept: 社会的望ましさバイアス（social desirability bias） 社会的に望ましい方向に回答を歪める傾向。自分をよりよく見せたいという動機（印象管理）と、自分自身に対して肯定的なイメージを維持したいという動機（自己欺瞞）の両方を含む。

社会的望ましさバイアス（social desirability bias） は、被検者が社会的に望ましいと思われる方向に回答を歪める傾向である。Paulhus（1984, 2002）は、この概念を印象管理（impression management）——他者に対して意図的によい印象を与えようとする動機——と自己欺瞞（self-deception）——自分自身に対して無自覚に肯定的なイメージを維持する動機——に区分した。選抜場面（採用試験等）では印象管理が特に問題となるが、匿名性が保証された研究場面でも自己欺瞞的な歪みは残存する。

参照枠効果（reference group effect） は、被検者が自分のパーソナリティを評価する際の比較対象（参照枠）が個人によって異なることから生じるバイアスである。たとえば「自分は社交的である」という判断は、比較対象が大学の友人か家族かによって変わりうる。この効果は特に異文化比較において問題となる。同じ水準の外向性を持つ個人でも、外向性の平均が高い文化圏では自己を「平均的」と評価し、低い文化圏では「高い」と評価する可能性がある（Heine et al., 2002）。

内省的アクセスの限界（limits of introspective access） も重要な問題である。Nisbett & Wilson（1977）の古典的研究が示したように、人間は自身の心理的過程に対する内省的アクセスが限られている場合がある。パーソナリティの自動的・習慣的な側面は、特に自己報告の対象としにくい。

質問紙法（自己報告式尺度）¶

NEO-PI-RとBFI-2¶

Section 2で導入したNEO-PI-R（Costa & McCrae, 1992）は、ビッグファイブの5因子それぞれに6つのファセットを設定し、計30のファセット（240項目）でパーソナリティを包括的に測定する尺度である。5件法のリッカート尺度（Likert scale）で回答する形式をとり、「強く反対」から「強く賛成」までの選択肢を提供する。

Key Concept: リッカート尺度（Likert scale） Rensis Likertが開発した回答形式。ある陳述文に対する同意の程度を、通常5段階または7段階の選択肢で回答させる。パーソナリティ質問紙で最も広く用いられる回答形式であり、順序尺度として扱われるが、実務的には間隔尺度として処理されることが多い。

NEO-PI-Rは研究・臨床の両場面で広く使用されているが、240項目の実施には約30-40分を要し、大規模調査やバッテリーの一部として使用する場合には負担が大きい。そこで、より簡便な短縮版として、Oliver P. John（オリバー・ジョン）らがBFI-2（Big Five Inventory-2）（Soto & John, 2017）を開発した。BFI-2は60項目でビッグファイブの5因子と各3つのファセット（計15ファセット）を測定する。NEO-PI-Rのファセット構造の詳細さには及ばないものの、心理測定的特性（信頼性、因子構造の明確性）においては概ね良好な成績を示す。

MMPI¶

Key Concept: ミネソタ多面人格目録（MMPI: Minnesota Multiphasic Personality Inventory） 臨床的パーソナリティ評価を目的として開発された自己報告式質問紙。経験的鍵構成法（empirical keying）によって項目が選定されている点が特徴であり、正常群と臨床群を弁別する複数の臨床尺度を含む。

ミネソタ多面人格目録（MMPI）は、Starke R. Hathaway（スターク・ハサウェイ）とJ. Charnley McKinley（チャーンリー・マッキンリー）によって1943年に原版が開発され、臨床的パーソナリティ評価の標準的な尺度として長く使用されてきた。現行版はMMPI-2-RF（Restructured Form, 2008）およびMMPI-3（2020）である。

MMPIの開発に用いられたのは経験的鍵構成法（empirical keying） と呼ばれる手法である。

Key Concept: 経験的鍵構成法（empirical keying） 尺度項目を理論的根拠や項目内容の表面的妥当性ではなく、基準群（criterion group）と統制群の回答パターンの統計的差異に基づいて選定する方法。特定の臨床群が統制群よりも有意に高い頻度で肯定（または否定）した項目がその尺度に採用される。

この方法では、たとえばうつ病と診断された患者群が正常統制群に比べて有意に異なる回答パターンを示した項目が「うつ病尺度」を構成する。重要なのは、項目の選定において項目内容の意味的・理論的な関連性は必ずしも考慮されないという点である。したがって、「私は園芸が好きだ」のような一見パーソナリティと無関係な項目であっても、臨床群と統制群で回答頻度が異なれば尺度に採用されうる。この方法の利点は社会的望ましさバイアスの影響を低減しうる点にあるが、項目の内容と測定対象の関連が不透明であるという限界がある。

MMPIは10の臨床尺度（心気症、抑うつ、ヒステリー、精神病質的偏倚、男性性-女性性、パラノイア、精神衰弱、統合失調症、軽躁、社会的内向性）と、回答の妥当性を評価する妥当性尺度（虚構尺度L、頻度尺度F、修正尺度K等）を含む。MMPI-2-RFでは、元の臨床尺度の内容的重複と弁別的妥当性の問題を改善するため、尺度構成が大幅に再構造化された。

逆転項目と黙従傾向¶

質問紙法に共通する方法論的課題として、黙従傾向（acquiescence bias / yea-saying） がある。

Key Concept: 黙従傾向（acquiescence bias） 質問項目の内容にかかわらず、「はい」「そう思う」の方向に回答する系統的傾向。肯定的な項目のみで構成された尺度では、黙従傾向と構成概念の得点が交絡する。

黙従傾向とは、項目の内容にかかわらず「はい」「そう思う」と肯定的に回答する傾向を指す。この傾向が強い被検者は、「私は社交的である」にも「私は内向的である」にも同意する可能性がある。

黙従傾向への主要な対策が逆転項目（reverse-scored item / reverse-keyed item） の使用である。逆転項目とは、構成概念の高い水準を反映する通常項目（「私は人付き合いを楽しむ」）とは逆の方向で記述された項目（「私は一人でいるのが好きだ」）のことである。逆転項目を含めることで、すべてに「そう思う」と回答する被検者を検出でき、また黙従傾向の影響を統計的に相殺できる。

ただし、逆転項目には独自の問題も指摘されている。逆転項目は通常項目に比べて理解が困難な場合があり、不注意な回答者が正しく反転して読み取れないことがある。また、逆転項目が独自の方法因子（method factor）を形成し、因子構造の解釈を複雑にすることがある。

graph LR
    subgraph "質問紙法の主要な尺度"
        NEO["NEO-PI-R<br>240項目 / 30ファセット<br>包括的ビッグファイブ測定"]
        BFI["BFI-2<br>60項目 / 15ファセット<br>効率的ビッグファイブ測定"]
        MMPI["MMPI-2-RF / MMPI-3<br>臨床的パーソナリティ評価<br>経験的鍵構成法"]
    end
    subgraph "開発方法"
        RA["合理的アプローチ<br>（理論に基づく項目選定）"]
        EK["経験的鍵構成法<br>（基準群との差異に基づく項目選定）"]
    end
    NEO --- RA
    BFI --- RA
    MMPI --- EK

投影法とその科学的評価¶

投影仮説¶

Key Concept: 投影仮説（projective hypothesis） 曖昧な刺激に対する反応には、反応者の無意識的な欲求・葛藤・パーソナリティ特性が「投影」されるという仮説。投影法（ロールシャッハ法、TAT等）の理論的基盤をなすが、その妥当性は大きな論争の対象となっている。

投影法（projective test）は、曖昧な刺激（インクの染み、絵画等）に対する被検者の反応からパーソナリティを評価する方法の総称である。その理論的基盤は投影仮説（projective hypothesis） にある。投影仮説は、構造化されていない曖昧な刺激に対して被検者が自由に反応する際、その反応にはその人の内的な欲求、葛藤、不安、パーソナリティ特性が反映される（「投影される」）という前提である。この「投影」はFreudの防衛機制における投影（→ Section 1参照）と関連するが、より広義に用いられている。

投影法は、質問紙法のように社会的望ましさによる回答歪曲を受けにくいとされ、自己報告では捉えにくい無意識的過程にアクセスしうるとされてきた。しかし、これらの想定の実証的根拠は限定的であり、投影法の科学的地位は大きな論争の対象となっている。

ロールシャッハ・インクブロットテスト¶

Hermann Rorschach（ヘルマン・ロールシャッハ, 1884-1922）が1921年に考案したロールシャッハ・インクブロットテスト（Rorschach Inkblot Test）は、10枚の左右対称のインクの染み図版を被検者に提示し、「これは何に見えるか」と尋ねる検査である。反応の内容（何を見たか）、決定因（形・色・動きのどの特徴に基づく反応か）、反応領域（図版の全体か部分か）等を組織的に符号化し、パーソナリティの特徴を推測する。

ロールシャッハ法の施行・解釈体系は歴史的に複数存在し、統一的な基準の不在が信頼性と妥当性を損なう一因となってきた。現在の主要な体系として以下の2つがある。

包括システム（Comprehensive System: CS） は、John E. Exner Jr.（ジョン・エクスナー, 1928-2006）が既存の複数の体系を統合して1974年に体系化したものであり、長くロールシャッハ法の標準的体系として用いられてきた。しかし、CSの規準データ（norms）が実際の一般集団の分布を適切に反映していないという批判（Shaffer et al., 1999; Wood et al., 2001等）が繰り返しなされた。すなわち、CSの規準に照らすと「正常」な被検者が病理的と判定される割合が過度に高い（偽陽性率が高い）という問題である。

この問題を改善するために開発されたのがロールシャッハ・パフォーマンス評価システム（R-PAS: Rorschach Performance Assessment System） である（Meyer et al., 2011）。R-PASは国際的に収集された大規模な規準データに基づき、反応数の統制、信頼性の低い変数の除外、エビデンスに基づく解釈指針の整備を行った。R-PASのもとでのロールシャッハ法は、CSに比べて心理測定的特性がいくらか改善されたと報告されているが、後述するLilienfeld et al.の批判で指摘された根本的な問題がすべて解消されたわけではない。

主題統覚検査（TAT）¶

主題統覚検査（TAT: Thematic Apperception Test） は、Henry A. Murray（ヘンリー・マレー, 1893-1988）とChristiana D. Morgan（クリスティアナ・モーガン）が1935年に開発した投影法である。被検者に人物が描かれた曖昧な場面の絵カードを提示し、「この場面で何が起こっているか、登場人物は何を考え感じているか、結末はどうなるか」を含む物語を作成させる。被検者が語る物語のテーマ、登場人物の動機づけ、葛藤解決のパターンからパーソナリティ特性——特に暗在的な動機（implicit motives: 達成動機、親和動機、権力動機）——を評価する。

TATは標準化された施行手続きや採点システムが確立していない点で、心理測定的に問題が多い。使用するカードの枚数・選択も施行者によって異なり、解釈は施行者の臨床的判断に大きく依存する。ただし、動機の測定に限定した体系的なコーディングシステム（Winter, 1994のPSEコーディング等）においては、一定の信頼性と妥当性が報告されている。

投影法の科学的評価¶

Key Concept: 増分妥当性（incremental validity） ある測定が、既存の（より効率的な）測定を超えて、予測や判断に独自の情報的価値を追加する程度。投影法に対する重要な批判の一つは、質問紙法や面接法を超えた増分妥当性が乏しいという点にある。

投影法の科学的評価をめぐっては、Scott O. Lilienfeld（スコット・リリエンフェルド）らの包括的な批判的レビュー（Lilienfeld, Wood, & Garb, 2000）が重要な論点を整理している。

妥当性係数の低さ：ロールシャッハ法の多くの変数は、パーソナリティ特性や精神病理との妥当性係数（validity coefficient）が低い。メタ分析（Hiller et al., 1999; Wood et al., 2003）に基づけば、ロールシャッハ変数の多くは外的基準との相関がr = .20-.30の範囲であり、一部は有意な妥当性を示すものの全体として予測力は限定的である。ただし、一部の変数——特に思考障害指標（Thought Disorder Index）や形態水準（form quality）——は統合失調症の思考障害の検出において中程度の妥当性を示すことが認められている。

増分妥当性（incremental validity）の問題：たとえ一定の妥当性が認められたとしても、より効率的で標準化された測定法（質問紙法、構造化面接）を超えた増分妥当性——既存の情報に追加される独自の予測的価値——が乏しいという批判がある。すなわち、投影法を実施しなくても質問紙法や面接法で同等以上の情報が得られるのであれば、投影法の追加的な時間・費用は正当化しがたい。

施行者間の信頼性：投影法の施行・解釈は施行者の訓練水準と臨床的志向に大きく依存し、標準化が困難である。同一の反応に対する異なる施行者間での解釈の一致度は、多くの場合、質問紙法の基準を下回る。R-PASによる改善が試みられているが、TATについては体系的な標準化が進んでいない。

バーナム効果（Barnum effect）との区別：投影法の解釈結果が「当たっている」と感じられる場合の一部は、誰にでも当てはまるような一般的で曖昧な記述（バーナム効果）による可能性があり、投影法に固有の診断的情報を反映しているとは限らない。

graph TD
    subgraph "投影法の評価枠組み"
        PRO["投影法の前提"]
        PRO --> PH["投影仮説:<br>曖昧刺激への反応に<br>パーソナリティが投影される"]
        PRO --> ADV["想定される利点:<br>社会的望ましさの影響が小さい<br>無意識的過程へのアクセス"]
    end
    subgraph "科学的批判"
        C1["妥当性係数の低さ<br>多くの変数でr < .30"]
        C2["増分妥当性の乏しさ<br>質問紙法を超える<br>独自の予測的価値が限定的"]
        C3["施行者間信頼性の問題<br>解釈の主観性"]
        C4["バーナム効果<br>一般的記述との区別困難"]
    end
    PH -.->|"実証的検証"| C1
    ADV -.->|"実証的検証"| C2

行動観察と他者報告¶

行動観察法¶

行動観察法（behavioral observation）は、被検者の実際の行動を観察・記録することによってパーソナリティを評価する方法である。自己報告法のような内省のバイアスを回避できる利点がある。

自然観察（naturalistic observation） は、日常の場面（学校、職場、家庭等）における行動をそのまま記録する方法である。生態学的妥当性（ecological validity）が高い反面、標準化が困難であり、観察者の存在自体が行動を変容させる可能性がある（反応性 reactivity の問題）。

構造化観察（structured observation） は、標準化された場面を設定し、その場面における行動を観察する方法である。たとえば、Hartshorne & May（1928）の古典的な「品性研究（Character Education Inquiry）」では、子どもに不正行為の機会を与える標準化された場面を設定し、正直さの個人差を行動レベルで測定した。構造化観察は標準化と統制が可能であるが、人為的場面における行動が日常行動をどの程度反映するかという問題（生態学的妥当性の低下）がある。

他者報告法¶

Key Concept: 他者報告法（informant report） 対象者をよく知る他者（配偶者、友人、同僚、家族等）に対象者のパーソナリティを評価させる方法。自己報告法とは異なる情報源からの視点を提供し、共有されたメソッドバリアンスの問題を回避できる。

他者報告法（informant report）は、被検者をよく知る他者——配偶者、友人、同僚、家族など——に被検者のパーソナリティを評価させる方法である。他者報告法の主要な利点は以下の通りである。

第一に、共有されたメソッドバリアンス（shared method variance）の回避が可能である。自己報告のみでパーソナリティと結果変数の両方を測定する場合、両者の相関にはパーソナリティの真の効果だけでなく、同一の方法（自己報告）を用いたことによる人工的な膨張（common method bias）が含まれる。他者報告を導入することで、この問題を部分的に回避できる。

第二に、自己報告の盲点の補完である。人は自身の行動の一部——特に他者に対する印象、行動の外的な影響、無自覚な習慣——について正確な内省を持たない場合がある。他者は、対象者が自覚していない行動パターンを観察している可能性がある。

自己報告と他者報告の一致度¶

Key Concept: 観察可能性仮説（observability hypothesis） パーソナリティ特性の行動的表現が外部から観察しやすいほど、自己報告と他者報告の一致度が高くなるという仮説。外向性のように行動に明瞭に表れる特性では一致度が高く、神経症傾向のように内的経験に依存する特性では一致度が低い傾向がある。

自己報告と他者報告の間の一致度（self-other agreement）は、パーソナリティ測定の妥当性を評価する重要な指標の一つである。研究の蓄積によれば、自己-他者間の相関はr = .30-.60の範囲にあり、特性によって系統的な差異が認められる。

Funder（1995）らが提唱した観察可能性仮説（observability hypothesis） は、この差異を説明する枠組みである。この仮説によれば、行動に明瞭に表れる特性ほど他者から観察しやすく、したがって自己報告との一致度が高い。

因子	自己-他者相関の典型的範囲	観察可能性
外向性（E）	r = .50-.60	高い（社交的行動は外部から容易に観察可能）
誠実性（C）	r = .40-.50	中程度
協調性（A）	r = .35-.45	中程度
神経症傾向（N）	r = .30-.40	低い（不安・内的苦痛は外部から観察しにくい）
開放性（O）	r = .35-.45	中程度

外向性は行動レベルで最も容易に観察可能な特性であり（社交的な行動、発話量、表情の豊かさなど）、自己-他者一致度が最も高い。一方、神経症傾向は内的な感情的経験（不安、抑うつ気分、心配）に大きく依存するため、外部からの観察では十分に捉えにくく、一致度が相対的に低い。

また、他者報告者間の一致度（inter-informant agreement）——たとえば配偶者と友人の評定の相関——は、自己-他者一致度よりもやや低い傾向にある。これは、他者報告者がそれぞれ異なる状況的文脈で対象者を観察しているためと解釈される。

情報源の三角測量と多特性多方法行列¶

三角測量の論理¶

パーソナリティ測定における各手法にはそれぞれ固有の限界とバイアスが存在する。自己報告は社会的望ましさバイアスや内省の限界を伴い、他者報告は観察可能性の制約と対象者の行動の一部しか観察していないという限界を持ち、行動観察は反応性や場面特異性の問題を抱える。したがって、単一の方法に依存するのではなく、複数の情報源・測定法を統合する三角測量（triangulation） のアプローチが推奨される。

多特性多方法行列（MTMM）¶

Key Concept: 多特性多方法行列（MTMM: Multitrait-Multimethod Matrix） Campbell & Fiske（1959）が提唱した、収束的妥当性と弁別的妥当性を同時に評価するための枠組み。複数の特性を複数の方法で測定し、得られた相関行列のパターンから構成概念の妥当性を検討する。

Donald T. Campbell（ドナルド・キャンベル）とDonald W. Fiske（ドナルド・フィスク）が1959年に提唱した多特性多方法行列（MTMM: Multitrait-Multimethod Matrix） は、パーソナリティ測定の妥当性を体系的に評価するための古典的な枠組みである。

MTMMの基本的なデザインは、複数の特性（trait）を複数の方法（method）で測定し、すべての組み合わせ間の相関行列を構成するというものである。たとえば、外向性（E）・協調性（A）・誠実性（C）の3特性を、自己報告（SR）・他者報告（IR）・行動観察（BO）の3方法で測定するとする。

この相関行列において、以下の条件が満たされれば構成概念の妥当性が支持される。

収束的妥当性の条件：同一特性-異方法間の相関（単調特性-異方法相関 monotrait-heteromethod correlation）が高いこと。たとえば、外向性の自己報告と外向性の他者報告の相関が高い。

弁別的妥当性の条件： 1. 同一特性-異方法間の相関が、異特性-異方法間の相関（異調特性-異方法相関 heterotrait-heteromethod correlation）よりも大きいこと 2. 同一特性-異方法間の相関が、異特性-同一方法間の相関（異調特性-同方法相関 heterotrait-monomethod correlation）よりも大きいこと

特に条件2は重要である。異特性-同一方法間の相関が高い場合、それは特性間の真の共変ではなく、同一の方法を使用したことによる方法効果（method effect） を反映している可能性がある。

graph TD
    subgraph "MTMM行列の構造"
        direction TB
        MH["単調特性-異方法相関<br>（monotrait-heteromethod）<br>例: E自己報告 ↔ E他者報告<br>→ 収束的妥当性の指標"]
        HH["異調特性-異方法相関<br>（heterotrait-heteromethod）<br>例: E自己報告 ↔ A他者報告<br>→ 弁別的妥当性の参照値"]
        HM["異調特性-同方法相関<br>（heterotrait-monomethod）<br>例: E自己報告 ↔ A自己報告<br>→ 方法効果を反映しうる"]
    end
    MH -->|"＞"| HH
    MH -->|"＞"| HM

CFA-MTMM：構造方程式モデリングによる拡張¶

Campbell & FiskeのオリジナルのMTMMアプローチは、相関行列のパターンを目視で評価する記述的な方法であったが、方法効果の大きさを定量的に推定することや、統計的検定を行うことには限界があった。

この限界を克服するために、確認的因子分析に基づくMTMM（CFA-MTMM） が開発された。CFA-MTMMでは、構造方程式モデリング（SEM: Structural Equation Modeling）を用いて、各測定値の分散を特性因子（trait factor） と方法因子（method factor） に分解する。

CFA-MTMMモデルでは、各観測変数は少なくとも1つの特性因子と1つの方法因子に負荷を持つ。特性因子の負荷量が大きければ収束的妥当性が、特性因子間の相関が低ければ弁別的妥当性が支持される。方法因子の負荷量が大きい場合は、方法効果が無視できないことを示す。

graph LR
    subgraph "CFA-MTMMモデルの概念図"
        TE["特性因子: 外向性"]
        TA["特性因子: 協調性"]
        MSR["方法因子: 自己報告"]
        MIR["方法因子: 他者報告"]

        ESR["E_自己報告"]
        EIR["E_他者報告"]
        ASR["A_自己報告"]
        AIR["A_他者報告"]
    end
    TE -->|"特性負荷"| ESR
    TE -->|"特性負荷"| EIR
    TA -->|"特性負荷"| ASR
    TA -->|"特性負荷"| AIR
    MSR -->|"方法負荷"| ESR
    MSR -->|"方法負荷"| ASR
    MIR -->|"方法負荷"| EIR
    MIR -->|"方法負荷"| AIR

CFA-MTMMの適用においては、モデルの識別可能性（identification）や適合度の評価が技術的に複雑であり、方法因子間に相関を許すか否か、特性因子と方法因子の直交性を仮定するか否かといったモデル設定上の選択が結果に影響する。これらの技術的課題にもかかわらず、CFA-MTMMはパーソナリティ測定における特性分散と方法分散の分離を定量的に可能にする点で、Campbell & Fiskeのオリジナルの枠組みを大幅に発展させたものである。

まとめ¶

パーソナリティ測定の基盤となる信頼性（内的整合性、再検査信頼性）と妥当性（構成概念妥当性、基準関連妥当性、内容妥当性）は、あらゆる測定法を評価する共通の枠組みである。信頼性は妥当性の必要条件であるが十分条件ではない
質問紙法は最も広く用いられるパーソナリティ測定法であり、NEO-PI-RやBFI-2（ビッグファイブの測定）、MMPI（臨床的パーソナリティ評価）が代表的である。MMPIは経験的鍵構成法という独自の尺度構成法をとる。自己報告法には社会的望ましさバイアス、参照枠効果、内省的アクセスの限界が内在する
投影法（ロールシャッハ法、TAT）は投影仮説を理論的基盤とするが、多くの変数で妥当性係数が低く、質問紙法を超えた増分妥当性に乏しいという批判がある。R-PASによる改善が試みられているが、根本的な問題がすべて解消されたわけではない
行動観察法と他者報告法は、自己報告法の限界を補完する。観察可能性仮説によれば、行動に明瞭に表れる特性（外向性など）ほど自己-他者報告の一致度が高い
多特性多方法行列（MTMM: Campbell & Fiske, 1959）は、複数の特性を複数の方法で測定することにより、収束的妥当性と弁別的妥当性を同時に評価する枠組みである。CFA-MTMMはこれを構造方程式モデリングにより拡張し、特性分散と方法分散の定量的分離を可能にした
次のSection以降では、本セクションで扱った測定方法論を前提として、パーソナリティの発達・変化やパーソナリティ障害などのトピックを検討する

用語集（Glossary）¶

用語	英語表記	定義
信頼性	reliability	測定の一貫性・安定性。内的整合性と再検査信頼性に大別される
内的整合性	internal consistency	一つの尺度の項目群が同一構成概念を一貫して測定しているかの指標
再検査信頼性	test-retest reliability	同一尺度を一定間隔で2回実施した際の得点間の相関
妥当性	validity	測定が意図した構成概念を実際に測定しているかの程度
構成概念妥当性	construct validity	測定が理論的構成概念を適切に反映しているかの包括的評価
収束的妥当性	convergent validity	同一構成概念を測定する異方法間の相関が高いこと
弁別的妥当性	discriminant validity	異なる構成概念を測定するもの同士の相関が低いこと
基準関連妥当性	criterion-related validity	測定得点が外的基準を予測する程度
内容妥当性	content validity	項目群が構成概念の内容領域を十分に網羅しているか
社会的望ましさバイアス	social desirability bias	社会的に望ましい方向に回答を歪める傾向
参照枠効果	reference group effect	パーソナリティ評価の比較対象が個人によって異なることで生じるバイアス
リッカート尺度	Likert scale	陳述文への同意度を段階的に回答させる形式
経験的鍵構成法	empirical keying	基準群と統制群の回答差異に基づく項目選定法
逆転項目	reverse-scored item	構成概念と逆方向に記述された項目。黙従傾向への対策
黙従傾向	acquiescence bias	項目内容にかかわらず肯定的に回答する傾向
投影仮説	projective hypothesis	曖昧刺激への反応にパーソナリティが投影されるという仮説
ロールシャッハ法	Rorschach Inkblot Test	インクの染み図版への反応からパーソナリティを評価する投影法
R-PAS	Rorschach Performance Assessment System	ロールシャッハ法の改良された施行・解釈体系
主題統覚検査	TAT (Thematic Apperception Test)	曖昧な絵カードへの物語反応からパーソナリティを評価する投影法
増分妥当性	incremental validity	既存の測定を超えて独自の予測的価値を追加する程度
他者報告法	informant report	対象者をよく知る他者にパーソナリティを評価させる方法
観察可能性仮説	observability hypothesis	行動に表れやすい特性ほど自己-他者報告の一致度が高いとする仮説
多特性多方法行列	MTMM (Multitrait-Multimethod Matrix)	複数特性×複数方法の相関行列から妥当性を評価する枠組み
CFA-MTMM	CFA-MTMM	構造方程式モデリングによるMTMMの拡張的分析手法
方法効果	method effect	同一方法の使用に起因する測定値間の人工的な相関

確認問題¶

Q1: パーソナリティ測定における信頼性と妥当性の関係を説明し、「信頼性は妥当性の必要条件であるが十分条件ではない」とはどういうことかを具体例を挙げて論じよ。 A1: 信頼性は測定の一貫性、妥当性は測定が意図した対象を実際に測定しているかの程度を指す。信頼性が妥当性の必要条件であるとは、測定結果が毎回大きく変動するならば、そもそも何を測定しているかの議論が成立しないことを意味する。一方、十分条件ではないとは、信頼性が高くても妥当性が保証されないことを指す。たとえば、ある尺度が「外向性」を測定すると主張しながら、実際には社会的望ましさへの感度を一貫して測定しているとすれば、その尺度は高い内的整合性と再検査信頼性を示しうるが（一貫して社会的望ましさを測定しているため）、外向性の測定としての妥当性は低い。このように、信頼性は妥当性を保証するには不十分であり、構成概念妥当性の検討（収束的妥当性・弁別的妥当性の確認）が別途必要である。

Q2: 質問紙法における社会的望ましさバイアスについて、Paulhusの2成分モデル（印象管理と自己欺瞞）を説明し、このバイアスに対する対策としての逆転項目の役割と限界を述べよ。 A2: Paulhusは社会的望ましさバイアスを2つの成分に区分した。印象管理（impression management）は他者に対して意図的によい印象を与えようとする動機であり、採用試験など選抜場面で特に顕在化する。自己欺瞞（self-deception）は自分自身に対して無自覚に肯定的なイメージを維持する動機であり、匿名場面でも残存する。逆転項目は直接的には社会的望ましさバイアスよりも黙従傾向への対策として用いられるものであるが、肯定方向のみの項目構成で生じる回答バイアスの検出・相殺に寄与するという意味で、回答歪曲全般への部分的な対策となる。逆転項目の限界としては、理解の困難さによる不注意回答の増加、逆転項目が独自の方法因子を形成して因子構造を複雑にする問題がある。社会的望ましさバイアスへのより直接的な対策には、妥当性尺度の組み込み（MMPIのL尺度、K尺度等）、強制選択法（forced-choice format）の採用、他者報告との併用などがある。

Q3: 投影法に対するLilienfeld et al.（2000）の批判の主要な論点を3つ挙げ、R-PASがこれらの批判にどの程度対応しているかを論じよ。 A3: 主要な論点は、（1）多くのロールシャッハ変数の妥当性係数が低いこと、（2）質問紙法や面接法を超えた増分妥当性が乏しいこと、（3）施行者間の信頼性や標準的な規準データの問題である。R-PASはこれらの批判に対し、国際的な大規模規準データの整備、信頼性の低い変数の除外、反応数の統制手続きの導入、エビデンスに基づく解釈指針の提供によって対応している。特に規準データの問題（CSでは偽陽性率が高すぎた問題）はR-PASで改善された。しかし、多くの変数の妥当性係数が中程度以下にとどまるという根本的な問題、および質問紙法を超えた増分妥当性が一貫して示されていないという問題は、R-PASにおいても完全には解消されていない。

Q4: 観察可能性仮説（observability hypothesis）の内容を説明し、ビッグファイブの各因子における自己-他者報告の一致度の差異がこの仮説によってどのように説明されるかを述べよ。 A4: 観察可能性仮説は、パーソナリティ特性の行動的表現が外部から観察しやすいほど、自己報告と他者報告の一致度が高くなるとする仮説である。ビッグファイブの中で最も一致度が高いのは外向性であり（r = .50-.60程度）、これは社交的行動、発話量、表情の豊かさなど外向性の行動的表現が外部から容易に観察可能であるためと説明される。一方、最も一致度が低い傾向にあるのは神経症傾向であり（r = .30-.40程度）、これは不安、抑うつ気分、心配などの内的経験が主要な構成要素であり、外部からの観察では十分に捉えにくいためと説明される。誠実性、協調性、開放性は中間的な一致度を示し、これらの特性が部分的に観察可能な行動（整理整頓、協力的態度、知的関心の表出など）と内的過程の両方を含むことと整合する。

Q5: Campbell & Fiske（1959）の多特性多方法行列（MTMM）において、収束的妥当性と弁別的妥当性はそれぞれどのような条件によって評価されるか説明し、CFA-MTMMがオリジナルのMTMMアプローチをどのように発展させたかを述べよ。 A5: 収束的妥当性は、同一特性を異なる方法で測定した場合の相関（単調特性-異方法相関）が高いことによって評価される。弁別的妥当性は、（1）単調特性-異方法相関が異調特性-異方法相関よりも大きいこと、（2）単調特性-異方法相関が異調特性-同方法相関よりも大きいこと、の2条件によって評価される。特に条件2は、同一方法を使用したことによる方法効果と特性間の真の共変を区別するうえで重要である。CFA-MTMMはこのオリジナルのアプローチを構造方程式モデリングにより発展させ、各測定値の分散を特性因子と方法因子に定量的に分解することを可能にした。これにより、方法効果の大きさの推定、特性因子の負荷量に基づく収束的妥当性の定量的評価、特性因子間の相関に基づく弁別的妥当性の統計的検定が可能となり、目視による記述的評価にとどまっていたオリジナルの限界を克服した。