Module 1-2 - Section 3: 聴覚¶

セクション情報¶

項目	内容
モジュール	Module 1-2: 知覚心理学
前提セクション	Section 1（感覚の基礎）
想定学習時間	3時間

導入¶

Section 1 で概観した精神物理学・信号検出理論・感覚系の一般原理は、あらゆる感覚モダリティに適用される共通基盤であった。本セクションでは、これらの基礎概念を聴覚系に具体的に適用しながら、音の物理的特性がどのように心理的経験へと変換されるかを学ぶ。聴覚系は、空気の振動という機械的エネルギーを神経信号に変換し、ピッチ・ラウドネス・音色といった知覚的属性を生成するとともに、時間的に高速に変化する複雑な音響信号（とりわけ音声）を解析する。本セクションでは、聴覚系の解剖学的構造と機能、音の基本的知覚属性、音声知覚の特殊性、そして複雑な音響環境における聴覚的情景分析の原理を扱う。

聴覚系の構造と機能¶

音の物理的特性¶

音は弾性媒質（通常は空気）中を伝搬する縦波（圧力波）である。音波の物理的パラメータと知覚的属性の対応は以下のとおりである。

物理的パラメータ	知覚的属性	単位
周波数（frequency）	ピッチ（pitch）	Hz
振幅（amplitude）	ラウドネス（loudness）	dB SPL
波形の複雑さ（spectral composition）	音色（timbre）	―

ヒトの可聴域は約 20 Hz から 20,000 Hz であり、日常的な会話音声は概ね 250 Hz から 4,000 Hz の範囲に集中する。音圧レベルはデシベル（dB SPL）で表され、これは Section 1 で学んだ Fechner の対数法則と整合する対数尺度である。

外耳・中耳の構造と機能¶

graph LR
    A["外耳<br/>（耳介 + 外耳道）"] -->|"音波の集音<br/>共鳴増幅"| B["鼓膜<br/>（tympanic membrane）"]
    B -->|"振動伝達"| C["中耳<br/>（耳小骨: ツチ骨・キヌタ骨・アブミ骨）"]
    C -->|"インピーダンス整合<br/>（約22倍の圧力増幅）"| D["卵円窓<br/>（oval window）"]
    D -->|"振動伝達"| E["内耳<br/>（蝸牛）"]
    style A fill:#e3f2fd,stroke:#1976D2
    style B fill:#e3f2fd,stroke:#1976D2
    style C fill:#fff3e0,stroke:#F57C00
    style D fill:#fff3e0,stroke:#F57C00
    style E fill:#e8f5e9,stroke:#388E3C

耳介（pinna）は音波を集め、外耳道の共鳴特性により約 2,000-5,000 Hz の周波数帯域を約 10-15 dB 増幅する。鼓膜は音波の圧力変動を機械的振動に変換し、中耳の耳小骨連鎖（ツチ骨 malleus、キヌタ骨 incus、アブミ骨 stapes）に伝達する。

Key Concept: インピーダンス整合（impedance matching） 中耳が空気（低インピーダンス媒質）から内耳のリンパ液（高インピーダンス媒質）への振動伝達の際に生じるエネルギー損失を補償する機構。鼓膜とアブミ骨底板の面積比（約17:1）および耳小骨のてこ作用（約1.3倍）により、約22倍の圧力増幅が実現される。

この増幅がなければ、空気中の音波エネルギーの約99.9%がリンパ液との界面で反射され失われる。中耳はこの物理的問題を解決する進化的適応である。

内耳と蝸牛¶

Key Concept: 蝸牛（cochlea） カタツムリ状に約2.5回転した管状構造で、音の周波数分析と神経信号への変換を行う聴覚系の中核器官。前庭階（scala vestibuli）、中央階（scala media）、鼓室階（scala tympani）の3つの管腔からなる。

蝸牛の内部では、アブミ骨の振動が卵円窓を介して前庭階のリンパ液（外リンパ perilymph）に伝達され、圧力波として蝸牛内を伝搬する。この圧力波は基底膜（basilar membrane）に進行波（traveling wave）を生じさせる。

Key Concept: 基底膜（basilar membrane） 蝸牛の内部を縦走する膜構造で、音の周波数に応じて異なる位置で最大振幅を示す。基部（base）は狭く硬く高周波数に、頂部（apex）は広く柔軟で低周波数に応答する。

Key Concept: 周波数局在性（tonotopic organization） 基底膜上の位置が特定の周波数に対応する配置。この空間的な周波数マッピングは、蝸牛神経核・下丘・内側膝状体・一次聴覚野に至るまで聴覚経路全体にわたって保存される。

graph TD
    subgraph "蝸牛の周波数局在性"
        BASE["基部（base）<br/>狭い・硬い<br/>高周波数応答<br/>〜20,000 Hz"]
        MID["中間部<br/>中周波数応答<br/>〜1,000-4,000 Hz"]
        APEX["頂部（apex）<br/>広い・柔軟<br/>低周波数応答<br/>〜20 Hz"]
    end
    BASE --> MID --> APEX
    style BASE fill:#ffcdd2,stroke:#E53935
    style MID fill:#fff9c4,stroke:#FBC02D
    style APEX fill:#c8e6c9,stroke:#43A047

有毛細胞と変換¶

Key Concept: 有毛細胞（hair cell） コルチ器（organ of Corti）に位置する感覚受容細胞。基底膜の振動に伴い不動毛（stereocilia）が偏位することで機械電気変換を行う。内有毛細胞（inner hair cell: IHC、約3,500個）が主要な求心性情報伝達を担い、外有毛細胞（outer hair cell: OHC、約12,000個）は能動的な蝸牛増幅機構として機能する。

Section 1 で学んだ変換（transduction）の概念を聴覚系に適用すると、基底膜の振動 → 不動毛の偏位 → 機械開閉型イオンチャネルの開放 → K+ イオンの流入 → 脱分極 → 神経伝達物質の放出 → 蝸牛神経の発火、という一連の過程が変換に相当する。

外有毛細胞は、脱分極に応じて能動的に伸縮する電気運動性（electromotility）を有し、基底膜の振動を局所的に増幅する。この蝸牛増幅器（cochlear amplifier）の機構により、感度は約40-60 dB 向上し、周波数選択性も著しく鋭くなる。外有毛細胞の損傷は感音性難聴の主要な原因である。

聴覚の中枢経路¶

蝸牛神経から大脳皮質に至る聴覚経路は多数の中継核を経由する。蝸牛神経核（cochlear nucleus）→ 上オリーブ核（superior olivary complex）→ 下丘（inferior colliculus）→ 内側膝状体（medial geniculate body）→ 一次聴覚野（primary auditory cortex, A1; ヒトでは側頭葉の Heschl 回に位置）という主要経路をたどる。上オリーブ核は両耳間の時間差・強度差の処理を行い、音源定位の計算に重要な役割を果たす。周波数局在性はこの経路全体を通じて保存され、一次聴覚野にも周波数地図が形成されている。

音の知覚¶

ピッチ知覚¶

Key Concept: ピッチ（pitch） 音の「高さ」に対応する知覚属性。主に音波の基本周波数（fundamental frequency, F0）に対応するが、物理的周波数と一対一に対応するわけではない。

ピッチ知覚の神経機構については、二つの古典的理論が提唱されてきた。

Key Concept: 場所説（place theory） Georg von Bekesy（1960, ノーベル賞受賞）が実証した理論。ピッチは基底膜上の最大振幅位置によって符号化される。異なる周波数は基底膜の異なる位置を最大に振動させ、その位置情報がピッチとして知覚される。

Key Concept: 時間説（temporal theory） ピッチは聴神経線維の発火タイミングの時間的パターン（位相同期 phase locking）によって符号化されるとする理論。神経線維は音波の特定の位相に同期して発火し、この発火間隔が周波数情報を伝達する。

場所説は高周波数（約4,000 Hz以上）の知覚をよく説明するが、低周波数では基底膜の振動パターンが広く分布するため周波数分解能が不十分となる。一方、時間説は低周波数（約5,000 Hz以下）の知覚に適合するが、神経の位相同期には上限（約5,000 Hz）があるため高周波数には適用できない。現在の主流的見解は、低周波数では時間情報が、高周波数では場所情報が優位であり、中間的な周波数帯域では両者が併用される二重機構説である。

ピッチ知覚の興味深い現象として、ミッシング・ファンダメンタル（missing fundamental）がある。基本周波数成分を除去し倍音（harmonics）のみを提示しても、基本周波数に対応するピッチが知覚される。例えば、200 Hz の基本周波数を除去して 400, 600, 800 Hz のみを提示しても、聴取者は 200 Hz のピッチを知覚する。この現象は、ピッチ知覚が単純な周波数検出ではなく、倍音構造から基本周波数を推定する中枢的な計算過程を含むことを示している。

ラウドネス知覚¶

Key Concept: ラウドネス（loudness） 音の「大きさ」に対応する知覚属性。主に音圧レベル（振幅）に対応するが、周波数にも依存する。

ラウドネスは音圧レベルの増大に伴い増加するが、その関係は Stevens のべき法則に従い、指数は約 0.67 である（1,000 Hz の純音の場合）。すなわち、音圧が10倍になってもラウドネスは約4.7倍にしか増加しない。

Key Concept: 等ラウドネス曲線（equal-loudness contour） 異なる周波数の純音が同じラウドネスに知覚される音圧レベルの組み合わせをプロットした曲線。Harvey Fletcher と Wilden A. Munson（1933）により最初に体系的に測定された。

等ラウドネス曲線は、ヒトの聴覚感度が周波数により大きく異なることを示す。聴覚系は約 2,000-5,000 Hz の周波数帯域で最も感度が高く（外耳道の共鳴効果による）、低周波数域および高周波数域では感度が低下する。また、小さい音圧レベルでは周波数による感度差が大きいが、高い音圧レベルでは等ラウドネス曲線がより平坦になる。ラウドネスの単位としてフォン（phon）が用いられ、1,000 Hz の純音の dB SPL 値と等ラウドネスの値として定義される。

音色知覚¶

Key Concept: 音色（timbre） 同じピッチ・ラウドネスを持つ二つの音を区別する知覚属性。主に倍音構造（スペクトル包絡）と時間的包絡（エンベロープ：立ち上がり・持続・減衰の時間パターン）によって決定される。

自然界の音は通常、単一周波数の純音ではなく、基本周波数の整数倍の周波数（倍音 harmonics）を含む複合音（complex tone）である。同じ基本周波数を持つピアノとヴァイオリンの音が異なって聞こえるのは、各倍音の相対的振幅（スペクトル包絡）と時間的包絡が異なるためである。例えばクラリネットは奇数次倍音が強く、ヴァイオリンは多数の倍音が豊かに含まれる。

音声知覚¶

音声信号の特性¶

音声は聴覚刺激の中でも特に複雑かつ重要なカテゴリである。音声信号は声道（vocal tract）のフォルマント構造によって特徴づけられ、発話速度・話者・音韻文脈により音響特性が著しく変動する。にもかかわらず、聴取者はこれらの変動を超えて安定した音韻カテゴリを知覚する。

カテゴリ知覚¶

Key Concept: カテゴリ知覚（categorical perception） 連続的に変化する物理的刺激が、離散的なカテゴリに分割されて知覚される現象。音声知覚において、Alvin Liberman ら（1957）により初めて体系的に報告された。カテゴリ境界を挟む刺激間の弁別は容易であるが、同一カテゴリ内の刺激間の弁別は物理的差異が同等であっても困難となる。

graph TD
    subgraph "カテゴリ知覚の特徴"
        A["物理的連続体<br/>（例: VOT 0ms → 60ms）"] --> B["同定関数<br/>（シグモイド型の急峻な遷移）"]
        A --> C["弁別関数<br/>（カテゴリ境界付近でピーク）"]
        B --> D["カテゴリ間: 弁別容易<br/>（例: VOT 20ms vs 40ms）"]
        C --> E["カテゴリ内: 弁別困難<br/>（例: VOT 0ms vs 20ms）"]
    end
    style D fill:#c8e6c9,stroke:#43A047
    style E fill:#ffcdd2,stroke:#E53935

カテゴリ知覚は、Section 1 で学んだ弁別閾の概念と対照的な側面を持つ。精神物理学的には物理量の等しい差異は等しい弁別成績を生むと予測されるが、カテゴリ知覚ではカテゴリ境界付近の弁別成績がカテゴリ内よりも著しく高くなる。この現象は、聴覚系が音声信号に対して単純な物理量の検出以上の処理を行っていることを示唆する。

VOT とカテゴリ知覚¶

Key Concept: 声の開始時間（voice onset time: VOT） 子音の閉鎖解放から声帯振動の開始までの時間間隔。有声子音（/b/, /d/, /g/）と無声子音（/p/, /t/, /k/）の弁別において中心的な音響手がかりとなる。

英語話者を対象とした実験では、VOT を 0 ms から段階的に増加させていくと、約 25-35 ms 付近で同定が /b/ から /p/ へ急峻に遷移する。カテゴリ境界を挟む刺激対（例: VOT 20 ms と 40 ms）の弁別は容易であるが、同一カテゴリ内の刺激対（例: VOT 0 ms と 20 ms、いずれも /b/）の弁別は困難である。このカテゴリ境界の位置は言語によって異なり、知覚が言語経験によって形成されることを示す。

McGurk 効果¶

Key Concept: McGurk 効果（McGurk effect） Harry McGurk と John MacDonald（1976）が発見した視聴覚統合現象。聴覚的な音韻情報（例: /ba/）と不一致な視覚的な口唇運動情報（例: /ga/）を同時に提示すると、両者の融合した知覚（例: /da/）が生じる。

McGurk 効果は、音声知覚が聴覚情報のみに基づくのではなく、視覚情報を含む多感覚統合過程であることを強く示す現象である。この効果は、知覚者が融合の生起を知っている場合でも消失しにくいことから、意識的な統制が困難な自動的過程であると考えられる。この現象は、Section 4（その他の感覚と多感覚統合）で扱う多感覚統合の重要な具体例として位置づけられる。

聴覚的情景分析¶

聴覚的情景分析の問題¶

日常環境において、複数の音源からの音波は空気中で物理的に混合された状態で鼓膜に到達する。しかし我々は、混合された音響信号を個々の音源（話者の声、BGM、環境音など）に帰属する個別の「聴覚的対象（auditory object）」として知覚することができる。この能力を理論的に扱った枠組みが聴覚的情景分析である。

Key Concept: 聴覚的情景分析（auditory scene analysis: ASA） Albert S. Bregman（1990）が体系化した理論的枠組み。複数の音源が混合した音響信号から、聴覚系がどのように個々の音源に対応する知覚的単位（聴覚的ストリーム auditory stream）を分離・構成するかを記述する。

群化の原理¶

Bregman は聴覚的ストリーム形成の原理を、同時的群化（simultaneous grouping）と系列的群化（sequential grouping）に分類した。

同時的群化は、同一時点に存在する周波数成分をまとめて一つの音源に帰属させる過程である。主要な手がかりには以下がある。 - 共通の基本周波数: 同一の基本周波数を持つ倍音群は同じ音源からのものとして群化される - 調波性（harmonicity）: 整数倍の周波数関係にある成分は単一音源に帰属しやすい - 共通の開始・終了時刻: 同時に開始・終了する成分は同一音源として群化される - 共通の振幅変調: 同じ時間パターンで振幅変動する成分は群化される

系列的群化は、時間的に連続する音響事象をまとめて一つのストリームとして知覚する過程である。 - 周波数近接性: 周波数が近い連続音は同一ストリームに群化されやすい - 時間近接性: 時間的に近接する音は同一ストリームに群化されやすい - 音色の類似性: 類似した音色の連続音は同一ストリームを形成しやすい

ゲシュタルト原理との関連¶

Bregman の群化原理は、視覚研究で確立されたゲシュタルト群化原理（近接・類似・共通運命・良い連続など）の聴覚版と位置づけることができる。特に、周波数近接性は「近接の原理」に、音色の類似性は「類似の原理」に、共通の振幅変調は「共通運命の原理」に対応する。ただし聴覚では時間次元が視覚以上に重要な役割を果たし、また音響信号の物理的混合という視覚にはない問題（視覚では物体が互いを遮蔽するが混合しない）が存在するため、聴覚固有の原理も必要とされる。

graph LR
    subgraph "ゲシュタルト原理と聴覚的群化の対応"
        G1["近接の原理"] --- A1["周波数近接性<br/>時間近接性"]
        G2["類似の原理"] --- A2["音色の類似性"]
        G3["共通運命の原理"] --- A3["共通の振幅変調<br/>共通のF0変動"]
        G4["良い連続の原理"] --- A4["周波数輪郭の<br/>連続的変化"]
    end
    style G1 fill:#e3f2fd,stroke:#1976D2
    style G2 fill:#e3f2fd,stroke:#1976D2
    style G3 fill:#e3f2fd,stroke:#1976D2
    style G4 fill:#e3f2fd,stroke:#1976D2
    style A1 fill:#e8f5e9,stroke:#388E3C
    style A2 fill:#e8f5e9,stroke:#388E3C
    style A3 fill:#e8f5e9,stroke:#388E3C
    style A4 fill:#e8f5e9,stroke:#388E3C

カクテルパーティ効果¶

聴覚的情景分析の日常的な発現として知られるのが、カクテルパーティ効果（cocktail party effect）である。多数の話者が同時に発話する騒がしい環境でも、特定の話者の声を選択的に追跡できるこの能力は、Colin Cherry（1953）により実験的に研究された。聴覚的ストリーム分離、空間的手がかり（両耳間時間差・強度差）、話者のピッチ・音色の差異、言語的文脈情報など、ボトムアップとトップダウンの複合的処理によって実現される。

まとめ¶

聴覚系は外耳・中耳・内耳の段階的構造を通じて、空気の振動を神経信号に変換する。中耳のインピーダンス整合は、空気からリンパ液へのエネルギー伝達の効率を確保する進化的適応である
蝸牛の基底膜は位置依存的な周波数選択性（周波数局在性）を持ち、この配置は聴覚中枢経路全体にわたって保存される
ピッチ知覚には場所符号化と時間符号化の二重機構が関与し、それぞれ高周波数域と低周波数域で優位に機能する
ラウドネスは音圧レベルと周波数の両方に依存し、等ラウドネス曲線はその非線形関係を記述する
音声知覚ではカテゴリ知覚・VOT といった特殊な処理機構が働き、McGurk 効果は音声知覚が多感覚統合過程であることを示す
Bregman の聴覚的情景分析は、混合音響信号からの音源分離の原理を同時的群化と系列的群化として体系化し、ゲシュタルト原理との理論的連続性を示す
次の Section 4（その他の感覚と多感覚統合）では、嗅覚・味覚・体性感覚などの感覚モダリティに加え、本セクションで触れた McGurk 効果を含む多感覚統合の諸原理を体系的に扱う。また Section 5（知覚の理論的枠組み）では、ボトムアップ・トップダウン処理の理論的枠組みの中で聴覚的情景分析における文脈効果やスキーマ駆動型処理を再検討する

用語集（Glossary）¶

用語	英語表記	定義
インピーダンス整合	impedance matching	中耳が空気からリンパ液への振動伝達におけるエネルギー損失を補償する機構
蝸牛	cochlea	音の周波数分析と神経信号への変換を行うカタツムリ状の内耳構造
基底膜	basilar membrane	蝸牛内部の膜構造。位置により異なる周波数に応答する
周波数局在性	tonotopic organization	基底膜上の位置が特定の周波数に対応する空間配置
有毛細胞	hair cell	コルチ器の感覚受容細胞。不動毛の偏位により機械電気変換を行う
場所説	place theory	ピッチが基底膜上の最大振幅位置で符号化されるとする理論
時間説	temporal theory	ピッチが聴神経発火の時間パターン（位相同期）で符号化されるとする理論
ピッチ	pitch	音の高さに対応する知覚属性。主に基本周波数に対応する
ラウドネス	loudness	音の大きさに対応する知覚属性。主に音圧レベルに対応する
等ラウドネス曲線	equal-loudness contour	異なる周波数の音が同じ大きさに知覚される音圧レベルの曲線
音色	timbre	同じピッチ・ラウドネスの二音を区別する知覚属性。倍音構造と時間的包絡に依存
カテゴリ知覚	categorical perception	連続的な物理変化が離散的カテゴリとして知覚される現象
声の開始時間	voice onset time (VOT)	子音の閉鎖解放から声帯振動開始までの時間間隔
McGurk 効果	McGurk effect	不一致な聴覚・視覚情報が融合知覚を生じさせる現象
聴覚的情景分析	auditory scene analysis (ASA)	混合音響信号から個別音源を分離する聴覚処理の理論的枠組み
同時的群化	simultaneous grouping	同一時点の周波数成分を単一音源に帰属させる過程
系列的群化	sequential grouping	時間的に連続する音響事象を一つのストリームとして知覚する過程

確認問題¶

Q1: ピッチ知覚における場所説と時間説の相補的関係を説明せよ。それぞれの理論が有効に機能する周波数帯域と、その理由を述べよ。 A1: 場所説は、基底膜上の最大振幅位置が周波数に対応するという機構に基づく。高周波数（約4,000 Hz以上）では基底膜の振動パターンが空間的に鋭く限局するため場所符号化が有効であるが、低周波数では振動パターンが広く分布するため周波数分解能が低下する。時間説は、聴神経線維の発火タイミングが音波の位相に同期する（位相同期）ことに基づくが、神経の位相同期には約5,000 Hzの上限があるため高周波数には適用できない。低周波数では位相同期が正確に機能するため時間符号化が有効である。現在の二重機構説では、低周波数域で時間情報が、高周波数域で場所情報が優位に機能し、中間帯域では両者が協調的に利用されると考えられている。

Q2: 中耳のインピーダンス整合はなぜ必要なのか。この機構が存在しない場合に何が起こるかを物理的観点から説明せよ。 A2: 音波は空気中（低インピーダンス媒質）から内耳のリンパ液（高インピーダンス媒質）へ伝達される必要がある。媒質のインピーダンスが大きく異なる界面では、音波エネルギーの大部分が反射され透過しない。インピーダンス整合なしでは約99.9%（約30 dB）のエネルギーが反射により失われ、聴覚感度が著しく低下する。中耳は鼓膜とアブミ骨底板の面積比（約17:1）と耳小骨のてこ作用（約1.3倍）により圧力を約22倍に増幅し、この物理的損失を補償する。中耳の病変（中耳炎や耳小骨の固着など）による伝音性難聴は、まさにこのインピーダンス整合機構の障害に起因する。

Q3: カテゴリ知覚の同定関数と弁別関数の特徴を説明し、これが精神物理学の弁別閾概念とどのように異なるかを述べよ。 A3: カテゴリ知覚の同定関数はシグモイド型（S字型）で、物理的連続体上の特定の点（カテゴリ境界）で急峻に遷移する。弁別関数はカテゴリ境界付近にピークを持ち、境界を挟む刺激対の弁別成績が突出して高くなる。精神物理学の弁別閾概念では、物理量の等しい差異は等しい弁別成績を生むと予測される（Weber の法則）。しかしカテゴリ知覚では、物理的差異が同等でもカテゴリ間の弁別がカテゴリ内の弁別より著しく容易になる。この不均一な弁別成績は、聴覚系が音声に対して物理的連続体をカテゴリ的に離散化する特殊な処理を行っていることを示唆する。

Q4: Bregman の聴覚的情景分析における同時的群化と系列的群化の違いを説明し、それぞれの主要な手がかりを挙げよ。これらがゲシュタルト原理とどのように対応するかについても述べよ。 A4: 同時的群化は同一時点に存在する複数の周波数成分をまとめて一つの音源に帰属させる過程であり、主要な手がかりとして共通の基本周波数（調波性）、共通の開始・終了時刻、共通の振幅変調がある。系列的群化は時間的に連続する音響事象をまとめて一つの聴覚的ストリームとして知覚する過程であり、周波数近接性、時間近接性、音色の類似性が主要な手がかりとなる。ゲシュタルト原理との対応としては、周波数・時間近接性が「近接の原理」に、音色の類似性が「類似の原理」に、共通の振幅変調・F0変動が「共通運命の原理」に、周波数輪郭の連続的変化が「良い連続の原理」に対応する。視覚のゲシュタルト原理が聴覚にも類似の形で適用できることは、群化原理がモダリティを超えた知覚の一般原理である可能性を示唆する。

Q5: ミッシング・ファンダメンタル現象とは何か。この現象がピッチ知覚の場所説だけでは説明が困難である理由を述べよ。 A5: ミッシング・ファンダメンタルとは、基本周波数（F0）の成分を含まない複合音（倍音のみ）を提示しても、F0に対応するピッチが知覚される現象である。例えば200 Hzを除去して400, 600, 800 Hzのみを提示しても200 Hzのピッチが知覚される。場所説では基底膜上の200 Hz対応位置に振動がないためこのピッチの知覚を説明できない。この現象は、ピッチ知覚が基底膜上の単一位置の活動ではなく、複数の倍音成分のパターンから基本周波数を推定する中枢的な計算過程を含むことを示している。時間説では倍音の干渉パターンに200 Hzの周期が含まれることで説明可能だが、高周波倍音のみの場合にも知覚が生じることから、より高次のパターン認識過程も関与していると考えられる。