Module 1-3 - Section 2: オペラント条件づけ¶

セクション情報¶

項目	内容
モジュール	Module 1-3: 学習・記憶の心理学
前提セクション	なし
想定学習時間	4時間

導入¶

古典的条件づけが刺激間の連合によって不随意的な反応を獲得する過程を扱うのに対し、オペラント条件づけ（operant conditioning）は、行動とその結果（consequence）の関係に基づいて随意的行動が変容する過程を扱う。日常生活における学習の多くは、ある行動をとった結果として何が起きたかに依存して行動の頻度が変化するという形をとる。例えば、勉強して良い成績を得れば勉強行動が増加し、熱いストーブに触れて火傷をすれば接触行動が減少する。

オペラント条件づけの研究は、エドワード・ソーンダイク（Edward Lee Thorndike）の効果の法則に端を発し、バラス・フレデリック・スキナー（Burrhus Frederic Skinner）によって体系化された。本セクションでは、効果の法則からオペラント条件づけの基本原理、強化スケジュール、シェイピング、そしてマッチング法則に至るまでを概観する。

Thorndikeの効果の法則¶

Key Concept: 効果の法則（law of effect） Thorndike（1898）が提唱した学習の基本法則。ある状況において満足をもたらす結果を伴った反応は、その状況との結合が強化され再び生じやすくなる。不快な結果を伴った反応は、その状況との結合が弱化され生じにくくなる。

問題箱の実験¶

ソーンダイクは、猫を用いた問題箱（puzzle box）実験（1898）を通じて学習過程を体系的に研究した。問題箱は内部に閉じ込められた猫が、レバーを押す、紐を引くなどの特定の操作を行うことで扉が開き、外に置かれた食物に到達できるように設計された装置である。

実験の主な知見は以下の通りである。

猫は最初、箱の中で無秩序に動き回り（引っ掻く、噛む、体をこすりつけるなど）、偶然に正しい操作に到達して脱出した
試行を重ねるにつれて、脱出に要する時間（潜時; latency）は漸進的に短縮した
学習曲線は滑らかな減少関数を描き、突然の洞察的な解決は観察されなかった

この漸進的な潜時の短縮から、Thorndikeは学習を刺激（状況）と反応の結合（S-R連合; stimulus-response association）の段階的な強化として捉えた。この過程を試行錯誤学習（trial-and-error learning）と呼ぶ。

Key Concept: 試行錯誤学習（trial-and-error learning） Thorndikeが問題箱実験に基づいて提唱した学習過程の概念。有機体は最初さまざまな反応を試み、満足的な結果をもたらした反応が徐々に選択され、不成功な反応が徐々に脱落していく。学習は洞察によるものではなく、結果に基づく連合の漸進的な強化による。

Thorndikeは後年（1932）、効果の法則を修正し、不快な結果（罰）によるS-R連合の弱化効果は、満足な結果（報酬）による強化効果ほど対称的に強力ではないとした。この非対称性はのちのスキナーの立場にも影響を与えた。

Skinnerのオペラント条件づけ¶

Key Concept: オペラント条件づけ（operant conditioning） Skinner（1938）が体系化した学習理論。有機体が自発的に行う行動（オペラント行動）が、その行動に後続する結果（強化子または罰子）によって頻度が変化する過程。行動がどのような結果を「操作する（operate on）」かに焦点を置く。

スキナー箱とオペラント行動¶

スキナーは、Thorndikeの研究を発展させ、学習の実験的分析のための標準化された装置としてオペラント箱（operant chamber）を開発した。一般にスキナー箱（Skinner box）と呼ばれるこの装置は、ラットの場合はレバーを、ハトの場合は反応キー（illuminated disk）を備えており、動物の反応を自動的に記録するとともに、強化子（食物ペレットや水）を自動的に提示する機構をもつ。

Key Concept: オペラント行動（operant behavior） 有機体が環境に対して自発的に行う行動であり、その行動の結果によって将来の生起頻度が変化する。古典的条件づけにおける誘発反応（respondent behavior）と対比される概念。レバー押し、キーつつきなどが実験的に用いられる代表的なオペラント行動である。

Thorndikeの問題箱実験では試行ごとに動物を装置に出し入れする必要があったが、スキナー箱では動物が装置内に留まったまま連続的に反応し、反応の累積的な記録を得ることが可能となった。この方法論的革新により、行動の詳細な時間的パターンの分析が可能になった。

三項随伴性¶

スキナーは、オペラント条件づけの基本的構造を三項随伴性（three-term contingency）として定式化した。

Key Concept: 三項随伴性（three-term contingency） オペラント条件づけの基本単位。先行刺激（弁別刺激; S^D）、行動（反応; R）、結果（強化子/罰子; S^R/S^P）の三者間の随伴関係。特定の先行刺激のもとで特定の行動が特定の結果を生じるという関係が学習の基盤をなす。

graph LR
    A["先行刺激（S^D）<br/>弁別刺激"] -->|"その状況下で"| B["行動（R）<br/>オペラント反応"]
    B -->|"その結果として"| C["結果（S^R / S^P）<br/>強化子 / 罰子"]
    C -->|"将来の行動頻度に影響"| B

三項随伴性の各要素は以下の通りである。

先行刺激（antecedent stimulus）: 行動が生じる文脈・状況を構成する刺激。特定の行動が強化される条件を示す弁別刺激（discriminative stimulus; S^D）が中心的概念となる
行動（behavior / response）: 有機体が自発的に行うオペラント行動
結果（consequence）: 行動に後続する事象であり、強化子（reinforcer）または罰子（punisher）として機能する

Key Concept: 弁別刺激（discriminative stimulus; S^D） 特定のオペラント行動が強化される条件を信号する先行刺激。弁別刺激の存在下では行動が強化され、その不在下（S^Δ; エス・デルタ）では強化されない。例えば、信号機の青は横断行動に対する弁別刺激として機能する。

強化と罰の分類¶

オペラント条件づけにおける結果の分類は、2つの次元の組み合わせによって体系化される。第一の次元は行動の頻度を増加させるか減少させるか（強化 vs 罰）、第二の次元は刺激を提示するか除去するか（正 vs 負）である。

graph TD
    subgraph "オペラント条件づけにおける強化と罰"
        A["結果の分類"]
        A --> B["強化（reinforcement）<br/>行動頻度の増加"]
        A --> C["罰（punishment）<br/>行動頻度の減少"]
        B --> D["正の強化<br/>刺激の提示により行動増加<br/>例: 食物の提示"]
        B --> E["負の強化<br/>刺激の除去により行動増加<br/>例: 電撃の停止"]
        C --> F["正の罰<br/>刺激の提示により行動減少<br/>例: 叱責"]
        C --> G["負の罰<br/>刺激の除去により行動減少<br/>例: 特権の剥奪"]
    end

	刺激の提示	刺激の除去
行動頻度の増加（強化）	正の強化（positive reinforcement）: 行動に随伴して好子が提示される	負の強化（negative reinforcement）: 行動に随伴して嫌子が除去される
行動頻度の減少（罰）	正の罰（positive punishment）: 行動に随伴して嫌子が提示される	負の罰（negative punishment）: 行動に随伴して好子が除去される

Key Concept: 強化（reinforcement） 行動に後続する結果がその行動の将来の生起頻度を増加させる過程。好子（appetitive stimulus）の提示による正の強化と、嫌子（aversive stimulus）の除去による負の強化に区分される。

Key Concept: 罰（punishment） 行動に後続する結果がその行動の将来の生起頻度を減少させる過程。嫌子の提示による正の罰と、好子の除去による負の罰に区分される。

ここで重要なのは、「正（positive）」「負（negative）」は価値判断ではなく、刺激の提示（加算）と除去（減算）を意味する操作的な用語であるという点である。また、「強化子」「罰子」は、実際に行動頻度を変化させたかどうかによって事後的に定義される機能的概念であり、刺激の物理的性質のみからは決定できない。

負の強化はしばしば罰と混同されるが、両者は明確に異なる。負の強化は嫌悪的な刺激を除去・回避することで行動を増加させる過程である。例えば、頭痛のときに鎮痛剤を服用して痛みが消失すれば、将来の服薬行動は増加する（負の強化）。負の強化はさらに、嫌子を終了させる逃避行動（escape behavior）と、嫌子の到来を予防する回避行動（avoidance behavior）に区分される。

強化スケジュール¶

Key Concept: 強化スケジュール（schedule of reinforcement） 行動に対して強化子がどのような規則で提示されるかを規定するルール。チャールズ・フェスター（Charles B. Ferster）とSkinner（1957）が体系化した。行動のパターンは、強化子そのものよりも強化スケジュールによって大きく規定される。

連続強化と部分強化¶

連続強化（continuous reinforcement; CRF）は、すべての正しい反応に対して強化子を提示するスケジュールであり、新しい行動の獲得段階で効果的である。一方、部分強化（partial reinforcement; intermittent reinforcement）は、反応の一部に対してのみ強化子を提示するスケジュールである。

部分強化は連続強化と比較して以下の特徴をもつ。

獲得の速度はCRFより遅い
安定した反応パターンを維持する
消去に対する抵抗性が著しく高い

最後の特徴は部分強化消去効果（partial reinforcement extinction effect; PREE）として知られ、オペラント条件づけにおける最も堅固な知見の一つである。

Key Concept: 部分強化消去効果（partial reinforcement extinction effect; PREE） 部分強化で維持された行動は、連続強化で維持された行動と比較して、消去手続き（強化の完全な停止）に対してはるかに高い抵抗性を示す現象。Humphreys（1939）が初期の実証を行い、以後多くの研究で確認されている。弁別仮説（連続強化では強化の停止が明瞭に弁別されるが、部分強化では弁別が困難）が主要な説明の一つである。

基本的な部分強化スケジュール¶

Ferster & Skinner（1957）は、部分強化スケジュールを反応数に基づくか時間間隔に基づくか（比率 vs 間隔）と、要求される反応数または時間間隔が一定か変動するか（固定 vs 変動）の2次元で分類し、4つの基本スケジュールを体系化した。

graph TD
    A["部分強化スケジュール"] --> B["比率スケジュール<br/>反応数に基づく"]
    A --> C["間隔スケジュール<br/>時間経過に基づく"]
    B --> D["固定比率 FR<br/>一定回数の反応ごと"]
    B --> E["変動比率 VR<br/>平均N回の反応ごと"]
    C --> F["固定間隔 FI<br/>一定時間経過後の最初の反応"]
    C --> G["変動間隔 VI<br/>平均T秒経過後の最初の反応"]

固定比率スケジュール（Fixed-Ratio; FR）¶

一定回数の反応ごとに強化子が提示される。FR5であれば5回の反応ごとに強化される。累積記録における特徴的なパターンは、強化直後に反応が一時的に停止する強化後休止（post-reinforcement pause; PRP）と、その後の高い一定速度での反応（ラン; run）である。この「休止→ラン」のパターンはブレイク・アンド・ラン（break-and-run）パターンと呼ばれる。比率が大きくなるほどPRPは長くなる。日常場面では出来高払いの労働がFRスケジュールに近い。

変動比率スケジュール（Variable-Ratio; VR）¶

強化までに必要な反応数が試行ごとに変動する（平均値は一定）。VR10であれば、平均して10回の反応ごとに強化されるが、実際には3回目で強化されることもあれば20回目で強化されることもある。累積記録では、FRに見られる強化後休止がほとんどなく、高くかつ安定した反応率が維持される。4つの基本スケジュールの中で最も高い反応率を生む。消去に対する抵抗性も最も高い。ギャンブル（スロットマシン等）がVRスケジュールの典型例であり、次の当たりが何回目の操作で来るかが予測できないことが持続的な行動を維持する。

固定間隔スケジュール（Fixed-Interval; FI）¶

最後の強化から一定時間が経過した後の最初の反応が強化される。FI60sであれば、前回の強化から60秒が経過した後の最初の反応が強化される。60秒経過前の反応は記録されるが強化されない。累積記録における特徴的なパターンはスキャロップ（scallop）パターンであり、強化直後は反応率が低く、次の強化可能時刻が近づくにつれて反応率が加速的に上昇する。時間弁別が行動パターンに反映される。月給制の給料日前に仕事量が増える傾向はFIスケジュールとの類似がしばしば指摘される。

変動間隔スケジュール（Variable-Interval; VI）¶

強化可能となるまでの時間間隔が試行ごとに変動する（平均値は一定）。VI30sであれば、平均して30秒の間隔で強化が利用可能となる。累積記録では、中程度で安定した反応率が維持され、FIのスキャロップパターンは見られない。次の強化がいつ利用可能になるかが予測できないため、時間的な反応パターンの偏りが生じにくい。メールの着信確認行動がVIスケジュールに近い例として挙げられる。

各スケジュールの累積記録パターンのまとめ¶

スケジュール	反応率	特徴的パターン	消去抵抗
FR	高い	強化後休止 + 高速ラン（break-and-run）	中程度
VR	最も高い	安定した高反応率、休止なし	最も高い
FI	中程度	スキャロップ（加速的増加）	低い
VI	中〜低程度	安定した中程度の反応率	高い

比率スケジュールが間隔スケジュールより高い反応率を生むのは、比率スケジュールでは反応を速くするほど強化を早く得られるのに対し、間隔スケジュールでは時間経過が強化の主要な決定因であるためである。

シェイピングと行動連鎖¶

シェイピング（逐次接近法）¶

Key Concept: シェイピング（shaping / successive approximation） 最終的な目標行動に漸進的に近づく反応を選択的に強化することで、有機体のレパートリーに存在しなかった新しい行動を形成する手続き。逐次接近法とも呼ばれる。Skinnerがハトに卓球をさせる訓練などで実証した。

シェイピングの手順は以下の通りである。

最終的な目標行動（terminal behavior）を明確に定義する
有機体の現在の行動レパートリーから、目標行動にわずかでも類似する行動を同定する
その行動を強化する
強化基準を目標行動に向けて段階的に引き上げ、より目標に近い反応のみを強化する
最終的な目標行動が安定して生じるまで繰り返す

各段階で、それまで強化されていた反応は消去にかけられ（強化基準が引き上げられるため）、より目標に近い新たな反応が強化される。このプロセスは分化強化（differential reinforcement）と呼ばれる。

シェイピングはオペラント条件づけの方法論的な基盤であると同時に、応用的にも重要である。臨床場面では、自閉スペクトラム症の子どもへの言語訓練や社会的スキル訓練、リハビリテーションにおける運動機能の回復訓練などで広く用いられている。

行動連鎖¶

Key Concept: 行動連鎖（behavioral chaining） 複数の単純な反応を特定の順序で連結し、一つのまとまった行動系列を形成する手続き。連鎖内の各反応の完了が次の反応に対する弁別刺激として機能し、同時に先行する反応に対する条件性強化子として機能する。

日常生活のほとんどの行動は、単一の反応ではなく複数の反応の連鎖として構成されている。例えば、「コーヒーを淹れる」という行動は、カップを取り出す→コーヒー粉を入れる→湯を沸かす→湯を注ぐ、といった一連の行動要素から構成される。

行動連鎖の訓練には主に2つの方法がある。

順向連鎖法（forward chaining）: 連鎖の最初の反応から順に訓練していく方法。各ステップが習得されたら次のステップを追加する
逆向連鎖法（backward chaining）: 連鎖の最後の反応（最終的な強化子に最も近い反応）から訓練を開始し、順次前のステップを追加していく方法。最後のステップは一次強化子に直接随伴するため、強い動機づけが維持されやすい

逆向連鎖法は、毎回の訓練試行が一次強化子の獲得で終了するため、特に複雑な行動系列の訓練において効果的であるとされる。

選択行動とマッチング法則¶

Key Concept: マッチング法則（matching law） Herrnstein（1961）が発見した選択行動の定量的法則。二つの反応選択肢が利用可能な並立スケジュールにおいて、各選択肢への反応の相対頻度は、各選択肢から得られる強化の相対頻度に一致（マッチ）するという法則。数式では B₁/(B₁+B₂) = R₁/(R₁+R₂) と表される。

Herrnsteinの実験¶

リチャード・ハーンスタイン（Richard J. Herrnstein, 1961）は、ハトを用いた並立VI VIスケジュール（concurrent VI VI schedule）の実験でマッチング法則を発見した。

並立スケジュール（concurrent schedule）とは、2つ以上の反応選択肢が同時に利用可能であり、それぞれの選択肢が独立した強化スケジュールで維持されている手続きである。ハトの場合、左右2つの反応キーにそれぞれ異なるVIスケジュールが割り当てられる。切替反応（changeover）に対するペナルティ（切替遅延; changeover delay; COD）を設定して、頻繁な切替を防止する。

Herrnsteinの実験結果は、左キーへのつつき反応の相対頻度が、左キーから得られた強化の相対頻度にほぼ正確に一致するというものであった。この関係をマッチング法則と呼ぶ。

マッチング法則の意義と拡張¶

マッチング法則は、選択行動を定量的に記述する最初の法則として、行動分析学における重要な貢献である。その意義は以下の点にある。

定量的予測: 強化率から行動配分を定量的に予測できる
一般性: ハトのキーつつきだけでなく、ラットのレバー押し、ヒトの選択行動など、多くの種と反応にわたって確認されている
強化の相対性: 行動の強度は強化の絶対量ではなく、利用可能な選択肢との相対的関係で決まることを示す

一方で、厳密なマッチングからの逸脱も報告されている。ジョン・バウム（John A. Baum, 1974）は一般化マッチング法則（generalized matching law）を提唱し、以下の式で逸脱パターンを記述した。

B₁/B₂ = b(R₁/R₂)^a

ここで、aは感受性（sensitivity）パラメータであり、a=1のとき厳密なマッチング、a<1のときアンダーマッチング（強化率の差に対する行動配分の差が小さい）、a>1のときオーバーマッチングを示す。bはバイアス（bias）パラメータであり、強化率とは無関係な一方の選択肢への偏好を反映する（位置偏好、色偏好など）。

実際のデータではアンダーマッチング（a<1）が最も一般的に観察され、これは動物が強化率の差に対して完全には感受的でないことを意味する。

まとめ¶

Thorndikeは問題箱実験を通じて効果の法則を提唱し、行動の結果が将来の行動頻度を規定するという基本原理を確立した。学習は洞察ではなく試行錯誤による漸進的過程として捉えられた。
Skinnerはオペラント条件づけを体系化し、三項随伴性（先行刺激→行動→結果）をその基本単位とした。強化と罰は、刺激の提示/除去と行動頻度の増加/減少の2次元で4つに分類される。
強化スケジュールは行動パターンを強力に規定する。FR（break-and-run）、VR（高く安定した反応率）、FI（スキャロップ）、VI（安定した中程度の反応率）はそれぞれ固有の累積記録パターンを生み、部分強化は連続強化より消去抵抗が高い（PREE）。
シェイピングは逐次接近法により新たな行動を形成する手続きであり、行動連鎖は複数の反応を連結して複雑な行動系列を構築する手続きである。
Herrnsteinのマッチング法則は、選択行動における反応配分が強化の相対頻度に一致するという定量的法則であり、一般化マッチング法則によって逸脱パターンも記述される。
次のセクション（→ Module 1-3, Section 3「学習の認知的理論」）では、古典的条件づけとオペラント条件づけという連合学習の枠組みを超え、認知的過程が学習に果たす役割を扱う。Tolmanの潜在学習、Banduraの観察学習、Seligmanの学習性無力感など、行動主義的アプローチでは十分に説明できない学習現象が検討される。

用語集（Glossary）¶

用語	英語表記	定義
効果の法則	law of effect	満足をもたらす結果を伴った反応はその状況との結合が強化されるという法則（Thorndike, 1898）
試行錯誤学習	trial-and-error learning	さまざまな反応を試み、結果に基づいて成功する反応が漸進的に選択される学習過程
オペラント条件づけ	operant conditioning	行動とその結果の随伴関係に基づいて行動頻度が変化する学習過程（Skinner, 1938）
オペラント行動	operant behavior	有機体が環境に対して自発的に行い、その結果によって頻度が変化する行動
三項随伴性	three-term contingency	先行刺激、行動、結果の三者間の随伴関係。オペラント条件づけの基本単位
弁別刺激	discriminative stimulus	特定の行動が強化される条件を信号する先行刺激（S^D）
強化	reinforcement	行動に後続する結果がその行動の生起頻度を増加させる過程
罰	punishment	行動に後続する結果がその行動の生起頻度を減少させる過程
正の強化	positive reinforcement	好子の提示により行動頻度が増加する過程
負の強化	negative reinforcement	嫌子の除去により行動頻度が増加する過程
正の罰	positive punishment	嫌子の提示により行動頻度が減少する過程
負の罰	negative punishment	好子の除去により行動頻度が減少する過程
強化スケジュール	schedule of reinforcement	強化子がどのような規則で提示されるかを規定するルール（Ferster & Skinner, 1957）
部分強化消去効果	partial reinforcement extinction effect (PREE)	部分強化で維持された行動が連続強化より消去に対して高い抵抗性を示す現象
固定比率スケジュール	fixed-ratio schedule (FR)	一定回数の反応ごとに強化するスケジュール
変動比率スケジュール	variable-ratio schedule (VR)	平均N回の反応ごとに強化するスケジュール。反応数は試行ごとに変動
固定間隔スケジュール	fixed-interval schedule (FI)	一定時間経過後の最初の反応を強化するスケジュール
変動間隔スケジュール	variable-interval schedule (VI)	平均T秒経過後の最初の反応を強化するスケジュール。間隔は試行ごとに変動
シェイピング	shaping (successive approximation)	目標行動に漸進的に近づく反応を選択的に強化して新しい行動を形成する手続き
行動連鎖	behavioral chaining	複数の単純な反応を特定の順序で連結しまとまった行動系列を形成する手続き
マッチング法則	matching law	反応の相対頻度が強化の相対頻度に一致するという選択行動の定量的法則（Herrnstein, 1961）
一般化マッチング法則	generalized matching law	マッチング法則を感受性パラメータとバイアスパラメータで拡張した法則（Baum, 1974）

確認問題¶

Q1: Thorndikeの効果の法則とSkinnerのオペラント条件づけの関係を説明し、Skinnerがもたらした方法論的・概念的な発展について述べよ。

A1: Thorndikeの効果の法則は、満足をもたらす結果を伴った反応はその状況との結合が強化され、不快な結果を伴った反応は弱化されるという原理であり、オペラント条件づけの基礎をなす。Skinnerはこの原理を発展させ、以下の貢献を行った。方法論的には、スキナー箱の開発により、動物が装置内に留まったまま連続的に反応を記録できるようになり、行動の時間的パターンの詳細な分析が可能になった。概念的には、三項随伴性（先行刺激→行動→結果）として行動分析の基本単位を定式化し、弁別刺激の概念を導入することで行動の文脈依存性を明示した。また、強化と罰を提示/除去と行動増加/減少の2次元で体系的に分類し、強化スケジュールの研究を通じて行動パターンが強化の時間的配置によって規定されることを明らかにした。

Q2: 正の強化、負の強化、正の罰、負の罰の4つを、それぞれ具体的な日常場面の例を挙げて説明せよ。また、負の強化と罰が混同されやすい理由を述べよ。

A2: 正の強化は好子の提示により行動が増加する過程であり、例として宿題を提出して教師から褒められると宿題提出行動が増加する場面が該当する。負の強化は嫌子の除去により行動が増加する過程であり、例としてシートベルトを着用すると警告音が停止するため着用行動が増加する場面が該当する。正の罰は嫌子の提示により行動が減少する過程であり、例として速度超過で反則金を科されると速度超過行動が減少する場面が該当する。負の罰は好子の除去により行動が減少する過程であり、例として子どもが乱暴な行為をしたためにゲーム機を取り上げられると乱暴な行動が減少する場面が該当する。負の強化と罰が混同されやすいのは、どちらも嫌悪的な刺激が関与するためである。しかし、負の強化は嫌悪刺激の「除去」によって行動が「増加」する過程であるのに対し、罰（正の罰）は嫌悪刺激の「提示」によって行動が「減少」する過程であり、行動頻度への影響が正反対である。

Q3: 固定比率（FR）、変動比率（VR）、固定間隔（FI）、変動間隔（VI）の4つの基本強化スケジュールについて、それぞれの累積記録パターンの特徴を説明し、なぜそのようなパターンが生じるのかを理論的に考察せよ。

A3: FRスケジュールでは、強化後に一時的な反応休止（PRP）が生じた後、高い一定速度で反応が生じる（break-and-runパターン）。PRPは、強化直後が次の強化から最も遠い時点であるため反応のインセンティブが一時的に低下するために生じると考えられる。VRスケジュールでは、安定した高い反応率が維持され、PRPはほとんど見られない。これは、強化がどの反応の後に来るか予測できないため、反応を停止する合理的な時点が存在しないためである。反応率は4スケジュール中最も高い。FIスケジュールでは、強化直後は反応率が低く、次の強化可能時刻に向けて加速的に反応率が上昇するスキャロップパターンが見られる。これは時間弁別の結果であり、有機体が経過時間を手がかりとして強化の接近を予測するためである。VIスケジュールでは、中程度で安定した反応率が維持される。次の強化がいつ利用可能になるか予測できないため、時間的な反応パターンの偏りが生じにくく、結果として安定した反応率となる。

Q4: シェイピング（逐次接近法）の手続きを説明し、なぜオペラント条件づけにおいて不可欠な技法であるかを論じよ。

A4: シェイピングは、最終的な目標行動に漸進的に近づく反応を選択的に強化することで、有機体のレパートリーに存在しなかった新しい行動を形成する手続きである。具体的には、まず目標行動を定義し、現在の行動レパートリーから目標に最も近い反応を強化する。その反応が安定したら強化基準を引き上げ、より目標に近い反応のみを強化する（分化強化）。この過程を目標行動が達成されるまで繰り返す。シェイピングがオペラント条件づけに不可欠である理由は、オペラント条件づけでは強化が行動に後続して提示されるため、行動がまず自発的に生じなければ強化を適用できないためである。目標行動が有機体の既存のレパートリーに存在しない場合（例: ハトに卓球をさせる）、その行動は自発的には生じないため、直接的に強化することができない。シェイピングにより既存の行動から段階的に新しい行動を形成することで、この問題が解決される。

Q5: Herrnsteinのマッチング法則を説明し、一般化マッチング法則におけるアンダーマッチングとバイアスの概念について、それぞれどのような行動的意味をもつか述べよ。

A5: Herrnsteinのマッチング法則は、並立スケジュールにおいて、各選択肢への反応の相対頻度が各選択肢から得られる強化の相対頻度に一致するという定量的法則である（B₁/(B₁+B₂) = R₁/(R₁+R₂)）。例えば、左キーから全強化の70%が得られれば、反応の70%も左キーに配分される。一般化マッチング法則（B₁/B₂ = b(R₁/R₂)^a）における感受性パラメータaが1未満の場合をアンダーマッチングと呼び、これは強化率の差に対する行動配分の差が理論的予測より小さいことを意味する。つまり、強化率が高い選択肢への反応配分が厳密なマッチングの予測ほどには偏らず、強化率が低い選択肢にもある程度の反応が配分される。アンダーマッチングは実際のデータで最も一般的に観察される逸脱パターンである。バイアスパラメータbは、強化率とは独立した一方の選択肢への体系的な偏好を反映し、b=1のときバイアスなし、b>1のとき選択肢1への偏好を示す。バイアスは位置偏好（左右の好み）や反応キーの色への偏好など、強化スケジュール以外の要因による行動の偏りを定量化する。