B.C.J. ムーア『聴覚心理学概論』

第六章　空間知覚

1. まえがき

音源 sound sourceの位置を知る能力について議論していく。

方向定位 localization とは、音源の方向と距離の判断。

音源が見かけ上頭内に生じた場合は、頭内定位 lateralization という。

[1～9節では、音像定位について扱う。
10～15節では、両耳マスキングレベル差について扱う。]

2. 純音の方向定位

結論: 純音の場合、高周波と低周波で異なる仕組みで定位している。

両耳強度差は、高周波で重要。

両耳位相差は、低周波で重要。1500Hz以下は位相差だけが手がかりとなる。

音源から耳への経路差は最大23cm→690μsの時間遅れ→750Hzのときに逆位相になる。

Stevens, Newman (1936) 実験: 低い周波数で、前方と後方の混同があった
高周波、低周波では間違いが少なかった
3000Hz付近で間違いが最大

Sandel et Al. (1955) 実験: 1500Hz付近であやふや
1500Hz～5000Hzで、真ん前からはずれても気付かない

二重理論 duplex theory とは、低周波では両耳時間差、高周波では両耳強度
差に基づくという考え。しかしこのことは、純音にのみあてはまる。

3. 両耳ビート

両耳ビートとは、両耳の周波数が少しだけずれてるときに、
うねりやさえずりが聞こえることを言う。
物理的なビート(うなり)とは違う。神経系の中の相互作用である。

ニューロンの放電に、位相情報が保存されていることを示す。

周波数の差がゼロからゆっくり変化すると、
→音が周期的にその場所を移動してるように聞こえ
→音の大きさが変動し
→「粗い」感じになり
→二つの音に分離する

両耳ビートは低周波数での現象。
300～600Hzで明瞭に聞こえる、1000Hz以上では非常に困難。

男性のほうが高い音まで知覚できる。
女性は生理の始まる時だけ同じくらいの上限になる。
ホルモン分泌、体液の変化に関連があるかも。

4. 過渡的な音の定位

音の始め終りのずれを知覚し、定位の手がかりとする。

両耳間時間差の検出能力は、二肢強制選択法で測定する。
左右の音を、ずらしたりずらさなかったりする。
そのとき被験者は、右にあったか、左にあったかを述べる。

A. 頭内定位している過渡的な音の定位の鋭さ

Klump, Eadyによる実験(1956)、
三種の音を用い、両耳間時間差の弁別閾を測定した。
・帯域制限雑音(150～1700Hz)　　　　　　　→ 9μs
・なだらかな立ち上り下りを持つ1000Hz純音 →11μs
・1msのクリック　　　　　　　　　　　　　→28μs

10μsの時間差は、約1度の移動に対応する。

雑音の場合、700msまでは持続時間に応じて検出能力が向上する。
そのときの閾値は6μsに達っする。(Tobias, Zerlin, 1959)

神経インパルスの開始の瞬間のゆらぎ jitter は、1000Hzで100μsの標準偏差
を持つのに、こんなわずかな時間差が検知できるとは驚くべきことである。

Tobias(1972)ha、左右の蝸牛を繋ぐ直接の神経経路の存在を予想している。

B. 周波数の関数としての定位の鋭さ

Yostらは、どの周波数成分が重要かを調べた。

被験者は、クリックをフィルタで変化させた音を聞き、
中央音像とずれた音像の弁別を行なった。
・1500Hz以上のみが存在する場合、弁別は悪くなった。
・低周波だけの場合、弁別は悪くならなかった。
・低域雑音でマスクすると、弁別は悪くなった。
・高域雑音でマスクすると、弁別は悪くならなかった。
→つまり低周波成分に支配されている。

1500Hz以上の周波数では、基底膜において「微細構造 fine structure」が
失なわれていて、包絡線の情報のみが用いられる。

Henningは、包絡線の重要性を示す研究を行なった。

振幅変調した高い周波数の音の頭内定位を調べた。3900Hzの音を300Hzで振幅
変調し、300Hzの純音と同じ程度に検知可能であるとした。

しかし被験者間に差があった。

微細構造の時間遅れより、包絡線の時間遅れが頭内定位を決定する。
搬送周波数が異なっていても、包絡線だけで定位することができる。
しかし搬送周波数が同一のときにもっとも明瞭になる。

C. 立ち上がり部分の食い違いと継続中の食い違い

結論: 立ち上がり部分の食い違いより、継続的な食い違いのほうが重要である。

Tobias, Schubert(1959)は、両者を競合させるようにして調べた。
持続時間が300msを越えると立ち上がりは何の効果もない。
10msでも、継続的な食い違いは大きな効果を持つ。

非常に短いインパルスやクリックでは立ち上りが重要になる。

高い周波数の純音では、継続的な位相差は聴覚系によって処理されていない。

D. 両耳順応の現象

Hafterは、両耳の信号処理に特有な順応の形を示した。

4kHz付近のクリック列の頭内定位を調べた。

両耳時間差または強度差の閾値を、
クリックの数(n)と、連続するクリックの間隔(I)の関数として測定。

要約すると、一秒間に1000回クリックを聞かせるといった場合は、
クリック列の最初の部分のみ処理しているらしい。

短く弱い雑音のバースト、短いトーンバースト、クリックの途切れなどの
トリガーがあると、その後のクリックが定位に有効となる。

5. 混同の円錐と頭の運動の役割

耳介の影響を無視すると、頭は球形の障害物によって分離された一対の穴とみ
なすことができる。

耳からでる円錐の表面にある音は、どの場所であれ同一の両耳時間差をもたらす。

これは頭を動かすと解決できる。頭を動かすと方向定位能力が改善される。
片方の耳でも両耳と同じような能力が得られる。

6. 単耳による方向定位と耳介の役割

垂直方向の判断能力は、頭の動き、両耳間差の情報だけよりもはるかに優れている。
耳介が、垂直方向の定位、前後の弁別のための情報を提供している。
いや、それだけでなく全ての方向の定位のために重要である。

Batteauは、耳介の模型の中にマイクロフォンをいれた。
方向角、上昇方向をかなり正確に判断できた。耳介をはずすと誤りが増えた。

Freedman, Fischerは、雑音の単音の定位を調べた。
1. 正常に聴取した場合
2. 10cmの金属チューブで音を導いた場合
3. 2と同じでチューブの先に耳介の模型をつけた場合

頭を動かさない場合、1と3が良く、3は悪かった。
動かしてもいい場合はどれも同じだった。

このときの耳介の模型は本人のではなく他人の耳介の形をしていた。
他人の耳介でも大丈夫なのかどうか、興味のあるところだ。

Gardner, Gardner は、広帯域雑音、さまざまな中心周波数の帯域雑音の正中
面内での定位を調べた。
耳介のくぼみをゴムの栓で埋めると定位能力は低下。
広帯域雑音、8kHz、10kHzの帯域雑音で、その効果が最大。
しかし3kHzでもまだ効果はあった。

耳介は、音のスペクトルを頭への入射方向によって変化させる。
外耳道での測定や、模型で確認されている。
頭と耳介は一緒になって、方向依存のフィルタを形成する。

レベルが上昇、下降する周波数帯域は音の入射方向に依存する。[とは?]
スペクトルの変化が方向の判断に用いられる。6kHz以上では特に重要。

スペクトルのピークが重要な手がかり。ディップも重要。[ってなに?]

耳介によって生じるスペクトルの変化は、6kHz以上。
しかし頭の影響により、500Hz～16kHzの間でも変化する。

音源と部屋の状況について、あらかじめ知っていることも重要。
Plenge(1972, 1974)は、われわれは音源の位置を判断する際に、
記憶しているパターンと比較していることを示した。
われわれは、2～3秒で音源の特性、部屋の音響効果になじんでくる。

7. 先行音効果

部屋で反射する音は、あまり音源方向の判断には影響をおよぼさない。

Wallachら(1949)は、二つのクリックを用い、エコーを処理する様子を調べた。

1. 間隔が短いと一音に聞こえる。
2. その場合は第一の音で決定される。
3. これは過渡的な(連続してない)音でのみ生じる。
4. 第二音の影響で、最大7度まで引っ張る。
5. 間隔が1ms以下なら、先行音効果は生じない。
6. 第二音のほうが10～15dB強かったら、先行音効果に打ち勝つ。
7. スペクトルが似てないと先行音効果は生じない。

よく響く部屋で耳の中に指を入れると、音響特性がはっきりする。

先行音効果は実際の部屋では重要である。
しかしステレオで音を聞くときには逆効果になる。
どちらかのスピーカーに60cm以上近寄ると、
全ての音がそちら側のスピーカーから出ているように感じてしまう。

8. 時間と強さの交換作用

両耳間の、時間差を強度差と交換することができる可能性がある。
Deatherage, Hirsh(1957)は、時間差と強度差が神経系の中で同じように符号
化されていると示唆した。

多くの研究者は、μs/dBで表わす時間と強さの交換作用の値を調べた。
純音のとき、1.7μs/dB
パルス列音のとき、100μs/dB
1500Hz以下を低域フィルタリングしたクリックは、25μs/dB
1500Hz以上を高域フィルタリングしたクリックは、90μs/dB
このようなとき、定位の判断のばらつきは大きい。
つまり正確に等価とはいえないのかも。

低周波とクリックで、二つの音像を知覚できる。
クリックでない音のうち
「時間音像」は、1μs/dB
「強度音像」は、20μs/dB
を示す。
クリックでは、
「時間音像」は、2～35μs/dB
「強度音像」は、85～150μs/dB
ダイオティック信号(両耳に同じ信号)、
ダイコティック信号(両耳に違う信号)、が検知できる。
すなわち時間差と強度差は正確には等価ではない。

Jeffress(1971)は、二つのメカニズムを示唆した。
1. 強度メカニズム。強さと時間の両耳差。これは全周波数で働く。
その生理学的根拠。時間差と強度差から生じるインパルスの時間遅れが影響する。
[図6.5の意味は?]
2. 時間メカニズム。強度差には影響されない、時間差。1500Hz以下で働く。
その生理学的根拠。定位位相をもつ神経繊維の発火の両耳時間差によって働く。
基底膜上の微細構造を両耳で比較する。

現実世界では、時間差と強度差は、単一の明解な音像をつくる。

9. 音像定位に関する結論

聴覚系は、
・両耳時間差、強度差
・頭、耳介によるフィルター(音のスペクトル構造の変化)
・頭や音源の移動
などを手がかりとし、音像の位置を決定する。

単一の手がかりでさえ十分な定位が可能。実験では相反する要素を作りだした。
等価ではないが、独立でもないことを示した。

10. 両耳マスキングレベル差

1. 雑音と純音を両耳に聞かせる。純音が聞こえなくなるまでレベルを下げる。
このときに純音のレベルをL₀dBとする。
2. 純音の位相を左右で反転する。そうするとまた純音は聞こえるようになる。
再び純音のレベルを下げる。このときのレベルをL_πdBとする。
この違い、つまりL₀dB - L_πdBを、
マスキングレベル差(MLD)という。
500Hz付近で、15dB。
1500Hz以上で、2～3dB。
[つまり低音だと、位相を反転するだけですごく聞きやすくなる。]

もっと驚くことに、片耳だけに雑音と純音を聞かせたとき、
もう片方の耳に雑音だけ追加すると、純音が聞きやすくなる!
さらにもう片方の耳に純音も追加すると、また聞こえなくなる。
雑音が同じものであることが重要。
純音以外に、複合音、クリック、音声についても生じる。

専門用語の導入。
両耳での信号位相がマスカーの相対位相と等しい場合「同位相 homophasic」
信号位相がマスカーの位相と逆の場合「逆位相 antiphasic」
N(雑音)、S(信号)、その後に添字をつけて、
0 同位相
π 逆位相
u 左右で相関なし
m 単耳だけへの提示
N₀S_π は、雑音が左右で同位相、信号音は逆位相。
[図6.6の例でいうと、
a N₀S₀
b N₀S_π
c N_mS_m
d N₀S_m
となる。]

MLDは低周波で大きい。1500Hz以上だと2～3dBほど低下。
位相比較で音を定位させられる最高の周波数と一致する。

単耳マスキング(第三章)と同じく、信号周波数のまわりのマスカーの成分だけ有効。
両耳のときの臨海帯域幅が単耳と等しいかどうか、見解は一致していない。

左右が逆位相のほうが、音声においても聞きやすくなる。

Carhart(1969)によると、空間的要因が相対的に重要であるそうだ。
しかし定位とマスキング解除はある程度独立しているように思われる。

MLDは順向性、逆向性でも生じる。
信号音とマスカーが40msまでのとき、4～5dBのMLDが生じる。

11. MLDを説明するモデル

二つの「ブラックボックス」モデル、一つの神経メカニズムモデルを説明する。
すべての面を説明するモデルはまだ現れていない。

A. Webster-Jeffressのモデル

狭帯域雑音は、振幅と位相がゆっくり変化する純音に似ている。
振幅と位相によるベクトルグラフとして表せる。
そこに、位相の違う純音が足される。図6.7

つまり位相とレベル差に基づく検知モデル。定位の手がかりと類似している。

Jeffress(1971)は、検知は頭内定位の一側面であるとしている。

しかし、信号とマスカーに同じ刺激を用いるのは特殊な場合だ。
Sπ信号を検知するとき、音像が左右どちらかに定位する。[?]

またこれは順向性、逆向性マスキングに適用できない。

B. Durlarchの等価消去モデル

Durlach(1963)によるモデル。

1. 帯域フィルター(臨界帯域に似たメカニズム)
2. Eメカニズム、
3. Cメカニズム、Eメカニズム間で差し引かれ、マスカーが除去される。
4. 決定

ECメカニズムは不完全な動作をするが、その原因は以下のように仮定される。
1. ランダムなジッターによるエラー
2. 異常な刺激

ECメカニズムはいろんな状態をとると考えられていて、
時間をシフトしたりする。

ということなんだが、広帯域マスカーの場合はちょっと無理な仮定をしなくちゃ
いけないくなる。実験について定量的に予測できる利点があるのだが、全てを
説明できるわけではない。

C. 神経モデル

聴神経やニューロンの性質モデルを提案している。
左右の神経スパイクを比較している。
左右を結ぶいくつかの遅延線があって、それぞれ固有の遅延時間を持つ。
どの遅延線を通ってきたか、一致検出器により符号化し、判定する。

xが特徴周波数で、yが遅延時間の差である二次元ディスプレイを考えてみる。
どのような音も、この上の一つのパターンとなるだろう。

12. 両耳聴系の緩慢さ

音源移動への追随は、遅いときのみ可能。
これを「両耳聴系の緩慢さ」という。

Perrott, Musicant 1977, Grantham 1986 は、
静止している音源と動く音源が区別できる角度、
最小可聴運動角 minimum audible movement angle: MAMA を測定した。
・15度/秒のとき、5度
・90度/秒のとき、21度
つまり速い動きには鈍感である。

Blauert 1972 は、
両耳間時間差、振幅差を正弦波状に変化させた。
2.4Hz, 3.1Hzまでは動きに追随できた。

13. 聴覚の方向定位における視覚の影響

聴覚の方向定位は、視覚の影響を受ける。

Young 1928, Willey 1937 は、
シュードフォーン pseudo-phone により、音の左右をいれかえた。しかし一週間
使っても新しい方向感覚は生じなかった。[視覚の影響が強いということだね。]

14. 距離の知覚

音源の距離の判断は、その音を知ってるかどうかに依存する。

壁面のある部屋では、直接音と反射音の強さの比と時間遅れが手がかりになる。
von Bekesy 1960 は、これらの比を変えて、遠近の印象を作りだした。
Mershon, Bowers 1979 によると、直接音と反射音の比は、絶対距離の判断にも
用いられる。未知の環境で未知の音を聞いたときも使用可能。

音圧レベル、スペクトルの変化は、音源の熟知度、聴取環境に依存する。
反射音、つまり直接音と間接音の比は、聞き慣れない音でも判断できる。

15. 障害物の検知と盲人

盲人、目隠しされた人は、障害物の判断ができる。
1. 皮膚感覚、つまり皮膚で空気の流れを検知する?
→そうじゃないみたい。
2. 聴感覚、つまり音の反射で検出してる?
→そうみたい。

Wilson(1967)によると、
直接音と障害物で反射する音とで干渉がおき、
反射音が聞こえ、近づくと音は高くなり、距離の手がかりを与える。
障害物が小さいと高音だけ反射されるが、大きいときは低音も反射される。

Kellog(1962)によると、盲人の被験者では、
・3.5度の小さな角度の物体の検知
・20%のオーダーの距離の変化
・30%のオーダーの面積の変化
が弁別可能。
・平らな材木とビロードは、99.5%で弁別可能
・ペンキを塗った材木とガラスは、ほとんど弁別不可能
・しかし、デニムの布とビロードは、86.5%で弁別可能

Rice(1967)によると、
円、正方形、三角形の間を80%で弁別できる人がいた。
通常の声、舌打ちした声、シーッという摩擦音などを発声していた。

16. 結論

音の定位の鋭敏さ→水平面で最大、垂直面でもかなり良い、距離には鈍感

水平面内の定位→両耳時間差、両耳強度差
両耳時間差→低い周波数で有用
両耳強度差→高い周波数で有用

過渡的な音、繰り返し速度の遅い周期的な音→時間遅れで定位する

周期的な音→順応作用をしめす、音のはじめの部分に最も強く依存
スペクトル特性がテスト音と異る弱い「トリガー」→順応からの回復が生じることがある

耳介→フィルタの役割→垂直・前後の弁別で重要、音が外部にある印象のためにも重要

音の定位システムには冗長性がある。
そのため残響の多い部屋、持続時間の短い音でもきわめて正確な方向定位が可能

両耳処理→信号音の差に関する情報を用いている
両耳マスキングレベル差(MLD)で実験

両耳聴系は→時間差、強度差の変化には鈍い→音源の運動には比較的鈍感

聴覚的定位→視覚・運動感覚にによって影響される→ずれが生じる

音の反射で、周囲の障害物を検出できる
反射音と直接音との観賞→経路差によって決まる

文責　江渡浩一郎（瀬籐康嗣、阿部大雅のレジュメを基に制作）