技术层面

动物中

简介

对于听觉的感官系统就是听觉系统。这个wikibook涵盖了听觉系统的生理学，以及它在最成功的神经感觉假体-人工耳蜗植入术中的应用。声学的物理和工程学在另一本名为声学的wikibook中有所涉及。一部关于图像与动画的参考资料是“进入听觉世界的旅程”(Journey into the world of hearing) ^[1].

听觉的能力在动物世界中并不像触觉、味觉和嗅觉等其他感官那样广泛存在，它主要限于脊椎动物和昆虫。其中，哺乳动物和鸟类具有最发达的听觉。下表显示了人类和一些动物的听觉频率范围：

人类	20-20'000 Hz
鲸鱼	20-100'000 Hz
蝙蝠	1'500-100'000 Hz
鱼类	20-3'000 Hz

侦测声音的器官是耳朵，它在收集声学讯息并将其通过神经系统传递到大脑的过程中作为接收器。耳朵包括听觉和平衡感的结构，它在负责接收声音的听觉系统以及平衡和体态上皆扮演重要角色。

人类的耳朵位于头部两侧对称位置，用以定位声源，大脑提取并处理不同形式的数据以便定位声音，例如：

鼓膜的声谱形状
左耳和右耳之间的声音强度差异
左耳和右耳之间声音的到达时间差异
耳朵自身反射之间的到达时间差异(换句话说，耳廓的形状（褶皱和脊的图案）以有助于定位声源的方式捕获声波，特别是在垂直轴上。)

健康的年轻人能够在20赫兹至20千赫的频率范围内听到声音。我们对2000到4000赫兹之间的频率最敏锐，这是说话的频率范围。频率分辨率为0.2％，这意味着可以区分1000赫兹和1002赫兹的音调。如果鼓膜偏转小于1埃，则可以检测到1千赫的声音，这小于氢原子的直径。耳朵的这种极端敏感性可以解释为什么它包含人体内存在的最小骨骼：镫骨，它的长度为0.25~0.33公分，重量为1.9~4.3毫克。

以下影片概述了将在下一节中更详细介绍的概念。

这个影片解释了声音如何传播到内耳，然后传递到大脑。内耳中的耳蜗是一个螺旋形的器官，包含毛细胞，用以感应声音的振动。毛细胞将声音振动转换为听觉神经可以理解的化学讯号。

听觉系统剖析

本节的目的是解释人类听觉系统的解剖学。本章说明了声音信息在声音感知过程中进行的序列中听觉器官的组成。
请注意，“感觉器官组件”的核心信息也可以在维基百科页面“听觉系统”(Auditory system)中找到，不包括本文中的延伸和格式等一些更改。（另见：维基百科听觉系统）

听觉系统感测声波，即气压的变化，并将这些变化转换成电讯号。然后大脑可以处理、分析和解释这些讯号。现在，让我们聚焦在听觉系统的结构和组成部分。而听觉系统主要由以下两部分组成：

耳朵
听觉神经系统（中枢听觉系统）

耳朵

耳朵是声音第一次处理以及感觉受器的所在地。他由三部分组成：

外耳
中耳
内耳

外耳

功能: 收集声音能量和放大声压。

耳道周围的软骨褶皱（外耳道）称为耳廓，它是耳朵的可见部分。声波在撞击耳廓时会被反射和衰减，这些变化提供了额外的信息，有助于大脑确定声音来自的方向。声波进入耳道这个简易管道后，耳道可放大3至12千赫之间的声音，而在耳道的远端是鼓膜，它标志着中耳的开始。

中耳

功能: 将声能从空气传输到耳蜗。
穿过耳道的声波将撞击鼓膜，这种波动通过一系列骨头穿过充满空气的鼓室（中耳腔）：锤骨、砧骨和镫骨。这些小骨充当控制杆和打字机，将较低压的鼓膜声音振动转换为另一个较小的膜上的高压声音振动，这个膜称为椭圆窗(oval window)，它是进入内耳耳蜗的两个开口之一。而第二个开口称为圆窗(round window)，它允许耳蜗中的液体移动。

锤骨通过柄部与鼓膜连接，而镫骨通过其足板(footplate)与椭圆窗连接。更高的压力是必须的，因为椭圆窗之外的内耳包含液体而不是空气。声音不会在听骨链上均匀放大，中耳肌肉的镫骨肌反射有助于保护内耳免受损伤。

中耳仍然包含波形的声音信息，它在耳蜗中转化为神经冲动。

内耳

耳蜗的结构图	耳蜗的横截面	MRI扫描的耳蜗和前庭系统

功能: 将机械波（声音）转换为电讯号（神经讯号）。

内耳由耳蜗和几个非听觉结构组成，耳蜗是内耳的蜗牛状部分，它有三个充满液体的部分：前庭阶/前庭管（Scala vestibuli）、蜗管/中管（Scala media）、鼓阶/鼓管（Scala tympani）。耳蜗支持由跨越基底膜的压力驱动的流体波，分离两个部分（鼓阶和蜗管）。基底膜长约3公分，宽0.5至0.04毫米。赖斯纳氏膜（前庭膜, Reissner’s membrane）分离前庭阶以及蜗管。

引人注目的是蜗管，它含有与内淋巴相似的细胞外液，通常在细胞内部发现。柯蒂氏器位于该通道，并在神经元转换机械波为电信号。其他两个部分，鼓阶和前庭阶，位于其填充有流体称为外淋巴骨迷宫内。内淋巴（蜗管）和外淋巴（在鼓阶和前庭阶中）之间的化学差异对于内耳的功能是重要的。

柯蒂氏器

柯蒂氏器形成一条感觉上皮带，沿着整个耳蜗纵向延伸。柯蒂氏器的毛细胞将流体波转换成神经信号。十亿个神经的旅程从此开始; 从这里进一步处理导致一系列听觉反应和感觉。

从耳朵到听神经系统的过渡

毛细胞

毛细胞是柱状细胞，每个细胞顶部有一束100-200个特化纤毛。这些纤毛是听觉的机械传感器。较短的那些被称为毛细胞静纤毛，而每个毛细胞束末端最长的一个则是动纤毛。动纤毛的位置决定了方向，即引起最大毛细胞激发的偏转方向。轻轻地放在最长的纤毛顶上的是覆膜，它随着声音的每个循环来回移动，使纤毛倾斜并允许电流进入毛细胞。

到目前为止，毛细胞的功能尚未完全建立。目前，毛细胞功能的知识允许在听力丧失的情况下通过耳蜗植入物替换细胞。然而，对毛细胞功能的更多研究有一天甚至可能使细胞得以修复。目前的模型是纤毛通过“尖端连接”彼此连接，“尖端连接”是将一个纤毛的尖端连接到另一个纤毛的结构。拉伸和压缩，尖端连接然后打开离子通道并在毛细胞中产生受体电位。请注意，100奈米的偏差已经引发了90％的完整受体电位。

神经元

神经系统区分携带朝向中枢神经系统的信息的神经纤维和携带信息离开中枢神经系统的神经纤维：

传入神经元 (也是感觉神经元或受体神经元) 携带从受体（感觉器官）朝向中枢神经系统的神经冲动
传出神经元 (也是运动神经元或效应神经元) 将神经冲动从中枢神经系统带到效应器，如肌肉或腺体（以及内耳的纤毛细胞）

传入神经元支配耳蜗内毛细胞，在突触处神经递质谷氨酸将来自毛细胞的信号传递给初级听觉神经元的树突。

耳蜗中的内毛细胞远少于传入神经纤维。神经树突属于听神经的神经元，后者又与前庭神经结合形成前庭神经，或第八脑神经。

从大脑到耳蜗的传出投射也在声音的感知中起作用。传出的突触发生在外毛细胞和内传发细胞下的传入（朝向大脑）树突。

听觉神经系统

现在以电信号的形式重新编码的声音信息沿着听觉神经（听神经，前庭神经，第八脑神经）传播，通过诸如耳蜗核和脑干的上橄榄复合体和下丘的中间站。中脑，在每个航路点进一步处理。信息最终到达丘脑，并从那里传递到皮层。在人脑中，初级听觉皮层位于颞叶。

初级听觉皮层

初级听觉皮层是第一个接受听觉输入的大脑皮层区域。

声音的感知与右后颞叶颞上回（STG）相关。颞叶颞上回包含大脑的几个重要结构，包括布罗德曼分区（Brodmann area）区域41和42，标记初级听觉皮层的位置，皮质区域负责声音的基本特征感觉，如音高和节奏。

听觉区域位于大脑颞叶内，称为韦尼克氏区（Wernicke's area）或区域22.该区域靠近侧脑沟，是处理声信号的重要区域，因此它们可以是区分为语音，音乐或噪音。

听觉讯号处理

现在已经概述了听觉系统的解剖结构，这个主题更深入地探讨了感知声学讯息并将这些信息转换成可由大脑处理的数据时发生的生理过程。听力开始于压力波击中耳道并最终被大脑感知。本节详细介绍了将振动转化为感知的过程。

头部的影响

波长比头部短的声波在远离声源的耳朵上产生声音阴影。当波长比头部短时，声音的绕射导致两只耳朵上的声音强度大致相等。

耳廓的声音接收

耳廓在空气中收集声波，影响来自后方和前方的声音，其波纹形状不同。声波被反射并衰减或放大，这些变化稍后将有助于声音定位。

在外耳道中，3到12千赫之间的声音（一个对人类交流至关重要的范围）被放大了，它充当共振器放大输入频率。

声音传导到耳蜗

以波动形式进入耳廓的声音沿着耳道传播，直到它到达由鼓膜标记的中耳的开始。由于内耳充满了流体，因此中耳是一种阻抗匹配装置，以解决从空气到流体的过渡时的声能反射问题。例如，在从空气到水的过渡中，99.9％的入射声能被反射。这可以使用以下公式计算：

{\frac {I_{r}}{I_{i}}}=\left({\frac {Z_{2}-Z_{1}}{Z_{2}+Z_{1}}}\right)^{2}

I_r 是反射声的强度，I_i 是入射声的强度，Z_k 是两种介质的波阻 ( Z_air = 414 kg m^-2 s^-1 and Z_water = 1.48*10⁶ kg m^-2 s^-1). 有助于阻抗匹配的三个因素是：

鼓室和椭圆窗之间的相对大小差异
中耳小骨的杠杆效应
鼓室的形状

声波的气压的纵向变化导致鼓膜振动，这反过来使得三个链小骨锤，砧骨和镫骨同步振荡。这些骨骼作为一个整体振动，将能量从鼓膜提升到椭圆形窗口。此外，膜和镫骨足板之间的面积差异进一步增强了声音的能量。中耳通过将鼓膜收集的声能改变为更大的力和更小的偏移来充当阻抗变换器。该机构有助于将空气中的声波传递到耳蜗中的流体的振动中。该变形是由位于椭圆形窗口中的镫骨足板的活塞式进出运动产生的。由足板执行的这种运动将耳蜗中的流体设定为运动。

通过镫骨肌，即人体中最小的肌肉，中耳具有门控功能：收缩这种肌肉会改变中耳的阻抗，从而通过大声保护内耳免受损伤。

耳蜗的频率分析

耳蜗的三个充满液体的隔室（前厅阶、蜗管、鼓阶）被基底膜和赖斯纳氏膜隔开。耳蜗的功能是根据声谱分离声音并将其转换为神经代码，当镫骨的足板推入前庭的外淋巴时，因此赖斯纳氏膜弯曲进入蜗管，赖斯纳氏膜的这种伸长导致内淋巴在蜗管内移动并诱导基底膜的移位，耳蜗中声音频率的分离是由于基底膜的特殊性质，耳蜗中的液体振动（由于镫骨足板的内外运动）使膜像行波一样运动，波从基部开始并向耳蜗的顶点前进，基底膜中的横波以下式传播

c_{trans}={\sqrt {\frac {\mu }{\rho }}}

μ 表示剪切模量，ρ表示材料的密度。由于基底膜的宽度和张力改变，沿膜传播的波的速度从椭圆形窗口附近的约100 m/s变为顶点附近的10 m/s。

沿着基底膜有一个点，波的幅度突然减小。此时，耳蜗液中的声波产生基底膜的最大位移（峰值振幅），波在到达该特征点之前行进的距离取决于传入声音的频率，因此，基底膜的每个点对应于刺激频率的特定值。低频声音在到达其特征点之前比高频声音传播的距离更长，频率沿着基底膜缩放，基部具有高频率，耳蜗顶部具有低频率。

耳蜗中的讯息传递

大多数日常声音由多个频率组成。大脑处理不同的频率，而不是完整的声音。由于其不均匀的特性，基底膜正在进行近似傅立叶的变换。声音因此被分成不同的频率，并且膜上的每个毛细胞对应于特定频率。频率的响度由相应传入光纤的发射速率编码。这是由于基底膜上行波的幅度，这取决于传入声音的响度。

被称为毛细胞的听觉系统的感觉细胞位于柯蒂氏器内的基底膜上。柯蒂氏器的每个器官包含约16,000个这样的细胞，由约30,000个传入神经纤维支配。有两种解剖学和功能上不同类型的毛细胞：内毛细胞和外毛细胞。沿着基底膜，这两种类型排列在一排内细胞和三至五排外细胞中。大多数传入神经支配来自内毛细胞，而大部分传出神经支配都来自外毛细胞。内毛细胞影响连接到这些毛细胞的各个听神经纤维的排出速率。因此，内毛细胞将声音信息传递给更高的听觉神经中枢。相反，外毛细胞通过将能量注入膜的运动并减少摩擦损失而放大基底膜的运动，但不会有助于传递声音信息。基底膜的运动使立体细胞（毛细胞上的毛发）偏转并使毛细胞的细胞内电位降低（去极化）或增加（超极化），这取决于偏转的方向。当立体定位器处于静止位置时，存在流过电池通道的稳态电流。因此，立体定向器的运动调节围绕该稳态电流的电流。

让我们分别看看两种不同毛细胞类型的作用方式：

内毛细胞：

毛细胞毛细胞静纤毛的偏转打开机械门控离子通道，其允许小的带正电荷的钾离子 (K⁺) 进入细胞并使其去极化。与许多其他电活性细胞不同，毛细胞本身不会激发动作电位。相反，来自蜗管中内淋巴的正离子的流入使细胞去极化，从而产生受体潜力。该受体电位打开电压门控钙通道;然后钙离子 (Ca²⁺) 进入细胞并触发细胞基底的神经递质释放。神经递质扩散穿过毛细胞和神经末梢之间的狭窄空间，然后它们与受体结合，从而触发神经中的动作电位。以这种方式，神经递质增加第八脑神经中的发射率，并且机械声音信号被转换成电神经讯号。
毛细胞中的复极化以特殊方式完成。鼓阶中的外淋巴具有非常低浓度的正离子。电化学梯度使正离子通过通道流向外淋巴。 (另见：维基百科毛细胞)

外毛细胞：

在人的外毛细胞中，受体电位触发细胞体的主动振动。对电信号的这种机械响应被称为体电动力并且驱动电池长度的振荡，其在输入声音的频率处发生并且提供机械反馈放大。外毛细胞仅在哺乳动物中进化。没有功能的外毛细胞，灵敏度降低大约50分贝（由于基底膜中更大的摩擦损失会阻碍膜的运动）。它们还提高了频率选择性（频率鉴别），这对人类特别有益，因为它可以实现复杂的语音和音乐。(另见：维基百科毛细胞)

在没有外部刺激的情况下，听神经纤维以随机时间顺序释放动作电位。这种随机时间射击称为自发活动。纤维的自发放电率从非常慢的速率变化到高达每秒100的速率。纤维根据它们是以高，中还是低速率自发发射而分为三组。具有高自发率（> 18 /秒）的纤维往往比其他纤维对声音刺激更敏感。

神经冲动的听觉路径

在内毛细胞中，机械声音信号最终被转换成电子神经信号。内毛细胞与听神经纤维相连，其细胞核形成螺旋神经节。在螺旋神经节中，产生电子信号（电子刺激，动作电位）并沿着听觉神经（第VIII脑神经）的耳蜗分支传递到脑干中的耳蜗核。

从那里，听觉信息被分成至少两个分支：

腹侧耳蜗核：

一个分支是腹侧耳蜗核，其进一步分裂成后腹腔螺旋核（PVCN）和前耳蜗耳核（AVCN）。腹侧耳蜗核细胞投射到一组称为上橄榄复合体的细胞核。

上橄榄复合体：声音定位

上橄榄复合体，小块灰色物质，被认为参与方位角平面中声音的定位（即它们向左或向右的程度）。声音定位有两个主要线索：耳间水平差异（ILD）和耳间时间差异（ITD）。 ILD测量耳朵之间声音强度的差异。这适用于高频（超过1.6 kHz），其中波长短于耳朵之间的距离，导致头影 - 这意味着高频声音以较低的强度击中避开的耳朵。较低频率的声音不会投射阴影，因为它们缠绕在头部。然而，由于波长大于耳朵之间的距离，进入耳朵的声波之间存在相位差 - 由ITD测量的时间差。这对于低于800Hz的频率非常精确地工作，其中耳朵距离小于波长的一半。通过外耳帮助在中间平面（前，上，后，下）中的声音定位，其形成方向选择性滤波器。

在那里，比较每只耳朵中声音信息的时间和响度的差异。声音强度的差异在侧向上橄榄复合体的细胞中处理，并且在内侧上橄榄复合体中的时间差异（运行时间延迟）。人类可以将左耳和右耳之间的定时差异检测到10微秒，对应于大约1度的声音位置差异。这种来自双耳的声音信息的比较允许确定声音来自的方向。优质橄榄是第一个节点，来自双耳的信号汇集在一起并可以进行比较。作为下一步，上橄榄复合体通过称为侧脑室的轴突将信息发送到下丘。下丘的功能是在将信息发送到丘脑和听觉皮层之前整合信息。有趣的是，知道附近的上丘显示出听觉和视觉刺激的相互作用。

背侧耳蜗核：

背侧耳蜗核（DCN）分析声音的质量，并通过侧向外侧蹄系直接投射到下丘。

从下丘，来自腹侧和背侧耳蜗核的听觉信息进入丘脑的听觉核，丘脑是内侧膝状核。内侧膝状体核进一步将信息传递到主要听觉皮层，即负责处理位于颞叶上的听觉信息的人脑区域。初级听觉皮层是第一次参与有意识的声音感知。

初级听觉皮层和高阶听觉区域

到达初级听觉皮层的声音信息（布罗德曼分区41和42）。初级听觉皮层是第一次参与有意识的声音感知。众所周知，它是按照音调进行组织并执行听力的基础：音高和音量。根据声音的性质（语音，音乐，噪音），进一步传递到更高阶的听觉区域。韦尼克氏区（布罗德曼分区22）处理的是单词。该领域涉及理解书面和口头语言（口头理解）。声音（口头表达）的产生与布罗卡地区（布罗德曼分区44和45）有关。说话时产生所需声音的肌肉由运动皮层的面部区域收缩，运动皮层的面部区域是参与规划，控制和执行自主运动功能的大脑皮层区域。

音调感知

本节回顾了听觉神经科学的一个关键主题：音调感知。我们假设对听觉系统有一些基本的了解，因此鼓励读者首先阅读上述 '听觉系统剖析' 和 '听觉信号处理' 部分。

简介

音高是一种主观感知，由具有近似周期性的声音引起。对于许多自然发生的声音，声音的周期性是音调的主要决定因素。然而，声学刺激和音调之间的关系是非常抽象的：特别地，音调对于其他声学参数（例如响度或音色的变化非常稳健，这两者可以显著改变声学波形的物理特性。例如，在没有任何共享频谱分量的声音可以引起相同音调的情况下，这尤其明显。因此，必须从跨多个频率信道表示的频谱和/或时间线索中提取与音调相关的信息。

对听觉系统中的音调编码的研究主要集中在识别反映这些提取过程的神经过程，或者找到这种过程的“终点”：听者所感知的音调的明确，稳健的表示。这两项努力取得了一些成功，有证据表明假设的'音高区域'中的'音高选择性神经元'。然而，这些区域的活动是否真正与音高有关，或者它们是否仅仅表现出与音高相关的参数的选择性表示仍然存在争议。一方面，证明响应于许多音调唤起声音的特定神经元或神经区域的激活，通常具有其物理特性的显著变化，提供了令人信服的相关证据，即这些区域确实编码音高。另一方面，证明这些神经元代表音高的因果证据很难，可能需要结合体内记录方法来证明这些反应与音高判断（即心理物理反应，而不仅仅是刺激周期性）的对应关系，以及直接操纵这些细胞中活性的变化表明可以预测的俯仰感觉偏差或损伤。

由于音高相当抽象，我们不会立即深入研究这个尚未解决的活跃研究领域。相反，我们开始讨论音调感知的最直接的物理对应物 - 即声音频率（对于纯音调），更一般地说，刺激周期性。具体而言，我们将区分并更具体地定义周期性和音高的概念。在此之后，我们将简要概述听觉系统可以实现的主要计算机制，以从声音刺激中提取这种与音调相关的信息。随后，我们概述了耳蜗中的音高参数的表示和处理，升降的皮质下听觉通路，以及最后在初级听觉皮层及其他区域中更具争议性的发现，并评估这些中的“音高神经元”或“音高区域”的证据。皮质区域。

周期性和音调

音高是一种新兴的心理物理属性。音高的显著性和'高度'取决于几个因素，但在谐波和基频的特定范围内，称为'存在区域'，音高显著性很大程度上取决于声音片段重复的规律性;通过重复率来调节高度，也称为调制频率。能够引起音调感知的声音集合是多样的并且在频谱上是异构的。许多不同的刺激 - 包括纯音，点击训练，迭代的波纹噪声，调幅声等等 - 可以唤起音调感知，而另一种声学信号，即使具有与这种刺激非常相似的物理特性也可能不会引起音调。大多数自然发生的音调唤起声音是谐波复合体 - 声音包含频谱的频谱，它是基频F0的整数倍。音调研究中的一个重要发现是'缺失基波'现象（见下文）：在一定频率范围内，F0处的所有光谱能量都可以从谐波复合体中去除，并且仍然会引起与F0相关的音高。人类听众^[2]。这一发现似乎推广到许多非人类听觉系统。^[3]^[4].

**缺少基本的音高** 音频摄谱仪为'玛丽有一只小绵羊'的旋律。 **(左)** 旋律演奏纯音（基本）， **(中)** 旋律演奏基调和前六音调泛音，**(右)** 旋律演奏只有谐波泛音，基频频谱能量消除。如在左边的相应音频剪辑中所示，这三个旋律的音色不同，但音调不变，尽管缺少基本和纯音调旋律没有共同的频谱分量。

由于两个原因，'缺失的基本'现像很重要。首先，它是评估特定神经元或大脑区域是否专门用于音高处理的重要基准，因为应该预期这些单元显示反映F0（并因此音高）的活动，而不管其是否存在于声音和其他声学参数中。更一般地，'俯仰神经元'或'俯仰中心'应该响应于引起俯仰高度的特定感知的所有刺激而显示一致的活动。正如将要讨论的，这已经成为识别假定音高神经元或区域的一些分歧的根源。其次，我们可以感知到对应于F0的音高，即使它在听觉刺激中不存在也提供了强有力的证据来反对大脑实现'选择'F0以直接推断音高的机制。相反，音调必须从时间或频谱提示（或两者）中提取。^[5].

音调提取机制：频谱和时间线索

**已解决和未解决的谐波** 复杂音调的示意光谱，激发模式和模拟基底膜（BM）振动，F0为100 Hz，等幅谐波。从激励模式和BM振动中可以看出，高阶谐波是“未解决的” - 也就是说，没有单个谐波的有效分离。（描述改编自原作者。可在： http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html)

这两个线索（频谱和时间）是两类主要音调提取模型的基础^[5]. 第一个是时域方法，它使用时间线索来评估声音是否由重复段组成，如果是，则重复率。通常提出的这样做的方法是自相关。自相关函数主要涉及找到两个采样点之间的时间延迟，这将给出最大相关性：例如，频率为100Hz（或周期，T = 10毫秒）的声波如果采样10将具有最大相关性10相隔几毫秒。对于200Hz波，产生最大相关性的延迟将是5毫秒 - 但也是10毫秒，15毫秒等等。因此，如果对F0 = 100Hz的谐波复合波的所有分量频率执行这样的函数（因此在200Hz，300Hz，400Hz等处具有谐波泛音），并且得到最大相关性的所得时间间隔被求和，它们将集体'投票'10毫秒 - 声音的周期性。第二类音调提取策略是频域方法，其中通过分析声音的频谱来提取音调以计算F0。例如，“模板匹配”过程 - 例如 ‘谐波筛’ - '建议声音的频谱简单地与谐波模板匹配 - 最佳匹配产生正确的F0^[6].

两类解释都有局限性。频域方法要求解析谐波频率 - 即，将每个谐波表示为不同的频带（见右图）。然而，由于较高频率的生理表示中较宽的带宽（基底膜的对数音调排列结构的结果）而未解决的高次谐波仍然可以引起对应于F0的音调。时间模型没有这个问题，因为自相关函数仍应产生相同的周期性，无论该函数是在一个频道还是多个频率信道中执行。然而，难以将音调唤起频率的下限归因于自相关：心理物理学研究表明，我们可以从低于30Hz的基本缺失的谐波复合体中感知音调;这相当于超过33毫秒的采样延迟 - 远远超过神经信号通常观察到的~10毫秒延迟^[5].

**正弦相** (左) **交替相** (右) 谐波这些复合物具有相同的F0（125Hz）和相同的谐波数，但右侧复合物的间距比左侧复合物的间距高一个八度。两种复合物在3900和5400Hz之间过滤。（原作者的描述。可在： *http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html*)

确定听觉系统采用这两种策略中的哪一种的一种策略是使用交替相位谐波：在正弦相位中产生奇次谐波，在余弦相位中产生偶次谐波。由于这不会影响刺激的光谱内容，因此如果听者主要依赖于光谱线索，则不应发生音调感知的变化。另一方面，时间包络重复率将加倍。因此，如果采用时间包络线索，则听众对交替相位谐波感知的音调将是对具有相同频谱成分的全余谐波感知的音调的高度（即，频率的两倍）。心理物理学研究已经研究了音高感知对不同F0和谐波范围内的这种相移的敏感性，提供了人类^[7]和其他灵长类动物^[8] 采用双重策略的证据：频谱线索用于较低阶，解析的谐波，而时间包络线索使用更高阶，未解决的谐波。

在上行性听觉路径提取音高

据研究，在人类音高辨别最小可觉差在1％以下^[9]. 鉴于对音高变化的高灵敏度，以及频谱和时间提示都用于音高提取的证明，我们可以预测听觉系统以高度精确的方式表示声学刺激的频谱组成和时间精细结构，直到这些表示最终明确地传达周期性或音高选择性神经元。

电生理学实验已经在上升的听觉系统中发现了与这一概念一致的神经元反应。从耳蜗的水平，响应于听觉刺激的全景映射的基底膜（BM）运动建立了沿BM轴的频率成分的位置代码通过将听觉神经纤维（ANF）锁相到其响应的频率分量，进一步增强了这些表示。用于频率组成的时间表示的这种机制以多种方式进一步增强，例如毛细胞/螺旋神经节细胞突触的横向抑制^[10]，支持这种精确表示对于音调编码是关键的概念。

因此，通过该阶段，ANF的锁相时间尖峰模式可能携带周期性的隐式表示。这是由Cariani和Delgutte ^[11]. 直接测试的。通过分析猫的ANFs中所有阶段间穗间隔（ISI）的分布，他们发现最常见的ISI是刺激的周期性，并且这些分布的峰均比增加了复杂的刺激唤起更多显著的音调感知。基于这些发现，这些作者提出了“主导区间假设”，其中全阶ISI的汇总代码对周期性进行“投票” - 当然，这一发现是ANF锁相响应的必然结果。此外，有证据表明频率成分的地方代码也很重要。通过将低频刺激与高频载波交叉，Oxenham等人将低频正弦波的时间精细结构转换为沿着BM的更高频率区域。^[12]这导致了音高辨别能力的显著受损。因此，位置和时间编码都表示ANF中的音调相关信息。

听觉神经将信息传递给耳蜗核（CN）。这里，许多细胞类型以不同方式表示与音调相关的信息。例如，许多浓密细胞似乎在听觉神经纤维的射击特性方面几乎没有差异 - 信息可能被带到更高阶的大脑区域而没有显著的改变^[5]。特别感兴趣的是腹侧耳蜗核中持续的切碎细胞。根据Winter及其同事的观点，这些细胞中的一阶尖峰间隔对应于迭代波纹噪声刺激（IRN）的周期性，以及余弦相和随机相位谐波复合，与声级完全不变^[13].。虽然需要进一步表征这些细胞对不同引发音调的刺激的反应，但是因此有一些迹象表明音调提取可以早在CN的水平开始。

在下丘（IC）中，有一些证据表明神经元的平均反应率等于刺激的周期^[14]. 。随后的研究比较了IC神经元对同相和交相谐波复合体的响应，表明这些细胞可能对整体能量水平的周期性（即包络）有反应，而不是真正的调制频率，但目前尚不清楚这仅适用于未解决的谐波（如心理物理实验所预测的）或解决的谐波^[5]。关于IC中周期性的表示仍然存在很多不确定性。

在听觉皮层中进行音调编码

因此，在整个上升的听觉系统中存在增强F0表示的趋势，尽管其精确性仍然不清楚。然而，在上行听觉通路的这些皮质下阶段中，没有证据表明一致地编码对应于感知音调的信息。这种表征可能发生在'较高'的听觉区域，从初级听觉皮层向前。

实际上，病变研究已经证明了听觉皮层在音高感知中的必要性。当然，对听觉皮层损伤后的音高检测的损害可能仅仅反映了皮质的被动传递作用：皮质下信息必须“通过”以影响行为。然而，惠特菲尔德的研究证明，情况可能并非如此：虽然剥皮猫可以重新训练（在他们的听觉皮层消融后）以识别由三个频率成分组成的复杂音调，但是动物选择性地失去了这种能力。将这些音调推广到具有相同音高的其他复合物^[15]。换句话说，虽然谐波成分可能影响行为，但谐波关系（即音高线索）不能。例如，受损动物可以正确地响应100Hz的纯音，但不会响应由其谐波泛音（200Hz，300Hz等）组成的谐波复合波。这强烈地表明听觉皮层在进一步提取与音高相关的信息中的作用。

早期对初级听觉皮层的MEG研究表明A1含有一个俯仰图。这是基于以下结果：纯音及其缺失的基波谐波复合体（MF）在相同位置引起刺激诱发激发（称为N100m)，而MF的分量频率在不同位置诱发激发^[16] 。然而，这些观点被使用更高空间分辨率技术的实验结果所掩盖：局部场电位(LFP) 和电生理学(MUA) 证明了映射A1是同位素 - 即基于神经元的最佳频率（BF），而不是最好的'音调'^[17].然而，这些技术确实表现出反映提取时间和光谱线索的不同编码机制的出现：时间包络重复率的锁相表示被记录在音调图的较高BF区域中，而点击线的谐波结构被表示。因此，在较低的BF区^[18]中，可以通过该阶段进一步提高沥青提取的提示。

**多峰神经元的示意图** 蓝色虚线显示了具有最佳频率（BF）在500Hz附近的“单峰”频率选择性神经元的经典调谐曲线，如该神经元对该BF周围的频率的最大响应所示。红色实线显示由Kadia和Wang（2003）鉴定的多峰神经元的示意性反应。除了300Hz的BF之外，该神经元还被600Hz和900Hz的音调激发 - 即与主BF的谐波关系的频率。虽然这里没有说明，但是这些神经元对谐波复合物的响应（在这种情况下，例如由300,600和900Hz组成）通常具有累加效应，引起响应大于BF处的纯音（即，单独300Hz）。见参考文献[18]

Kadia和Wang在狨猴的初级听觉皮层中描述了可以促进这种增强的神经元底物的实例^[19]。这里大约20％的神经元可以归类为'多峰'单元：具有多个频率响应区域的神经元，通常是谐波关系（见右图）。此外，激发这些光谱峰中的两个，显示出对神经元反应具有协同效应。因此，这将有助于提取声刺激中的谐波相关音调，允许这些神经元充当用于提取频谱提示的'谐波模板'。此外，这些作者观察到，在大多数'单峰'神经元（即在其BF处具有单个光谱调谐峰的神经元）中，次级音调可能对神经元对其的响应具有调节（促进或抑制）作用。 BF，同样，这些调制频率通常与BF谐波相关。因此，这些促进机制可以适应某些谐波分量的提取，而通过抑制调制来抑制其他频谱组合可以促进与其他谐波复合或诸如宽带噪声的非谐波复合的消歧。

然而，鉴于在整个皮质下听觉系统中已经证明了增强F0的趋势，我们可能期望必须更接近皮层中更明确的音高表示。神经影像学实验已经探索了这一观点，利用了音高的紧急质量：减法方法可以识别大脑中响应音调唤起刺激而显示功能性磁共振成像响应的区域，但不能识别具有非常相似光谱特性的另一种声音，但是不会引起音调感知。 Patterson，Griffiths及其同事使用了这样的策略：通过减去在呈现IRN期间获得的信号中呈现宽带噪声期间获得的BOLD信号，他们确定了侧向（在某种程度上，内侧）Heschl的选择性激活。 gyrus（HG）响应后一类音调唤起的声音^[20]。此外，随着时间的推移改变IRN的重复率以产生旋律导致在颞上回（STG）和平面偏振（PP）中的额外激活，表明通过听觉皮层的音高的分级处理。与此一致，Krumbholz等人的MEG记录显示，随着IRN刺激的重复率增加，在HG周围检测到新的N100m，因为重复率超过了俯仰感知的下限阈值，并且'音调起始反应'随音高显著性增加^[21].

然而，关于音调选择区域的精确位置存在一些争论。正如霍尔和普拉克所指出的，单独使用IRN刺激来识别对音高敏感的皮层区域不足以捕获可引起音高感知的广泛刺激：HG的激活可能是重复性宽带刺激所特有的^[22]。实际上，基于响应多个引发节奏的刺激而观察到的BOLD信号，Hall和Plack认为平面临时（PT）与音高处理更相关。

尽管对专门用于音调编码的精确神经区域存在持续的分歧，但是这样的证据表明位于A1前外侧的区域可能专门用于音高感知。通过在狨猴听觉皮层的A1的前外侧边界处识别“音高选择性”神经元来提供对这一概念的进一步支持。这些神经元选择性地响应纯音和具有相似周期性的F0谐波^[23]。许多这些神经元也对其他引起节奏的刺激的周期性敏感，例如点击列车或IRN噪声。这提供了强有力的证据，即这些神经元不仅仅响应声学信号的任何特定分量，而且具体地表示与音调相关的信息。

周期性编码或音调编码？

因此，越来越多的证据表明存在专门提取F0的神经元和神经区域，可能位于A1的低BF区域的前外侧区域。然而，将这些神经元或区域称为“音高选择性”仍然存在困难。虽然刺激F0当然是音高的关键决定因素，但它不一定等于听众所感知的音高。

然而，有几条证据表明这些区域确实是编码间距，而不仅仅是F0。例如，Bendor及其同事对狨猴沥青选择性单位的进一步研究表明，这些神经元中的活动很好地与动物的心理物理反应相对应^[8]。这些作者测试了动物在同一F0中持续呈现同相谐波的过程中检测交替相位谐波复合体的能力，以便区分动物何时更多地依赖于时间包络提示进行音高感知，而不是光谱提示。。与人类的心理物理实验一致，狨猴主要使用时间包络线索来获得低阶F0的高阶，未解析的谐波，而光谱线索则用于从高F0复合波的低阶谐波中提取音调。从这些音高选择性神经元的记录显示，与调谐到低F0的神经元的同相谐波相比，F0调谐向下移动了八度音阶以进行交替相位谐波。因此，这些神经元反应模式与心理物理学结果一致，并且表明时间和光谱线索都集成在这些神经元中以影响音调感知。

然而，再次，这项研究无法明确区分这些音高选择性神经元是否明确表示音高，或者仅仅是F0信息的积分，然后将其解码以感知音高。 Bizley等人采用了一种更直接的方法来解决这个问题，他分析了雪貂的听觉皮层LFP和MUA测量值如何能够独立地用于估计刺激F0和俯仰感知^[24]。虽然雪貂参与音高辨别任务（以指示目标人造元音的音高是否高于或低于2替代强制选择范例中的参考），使用接收器操作特性（ROC）分析来估计可辨性。神经活动在预测F0变化或实际行为选择（即感知音高的替代）中的作用。他们发现听觉皮层的神经反应对两者都有信息。最初，活动比动物的选择更好地区分F0，但是关于动物选择的信息在整个刺激后的时间间隔内稳定地增加，最终变得比F0变化的方向更可辨别^[24]。

比较研究的皮质区域之间的ROC差异表明，后场活动更好地区分了雪貂的选择。这可以用两种方式解释。由于选择相关活动在后场（其位于A1的低BF边界）较高，与原始场相比，这可以被视为A1低BF边界附近的沥青选择性的进一步证据。另一方面，在主要听觉区域中也观察到与音调相关的信息的事实可能表明该阶段可能已经建立了足够的音调相关信息，或者跨越多个听觉区域的分布式代码编码音调。实际上，虽然分布在听觉皮层上的单个神经元通常对多个声学参数敏感（因此不是“音调选择性”），但信息理论或神经测量分析（使用神经数据推断刺激相关信息）表明音调信息可以然而，通过人口编码，甚至通过时间复用的单个神经元（即，在不同的时间窗口中表示多个声音特征）来强有力地表示^[25]^[26]。因此，在没有刺激或停用这些推定的音高选择性神经元或区域以证明这种干预引起音高的可预测偏差或损伤的情况下，可能是音高以跨越听觉皮层的空间和时间分布的代码表示，而不是而不是依靠专门的当地代表。

因此，电生理记录和神经影像学研究都表明，在A1的低BF边界附近可能存在明显的俯仰神经代码。当然，对各种引发音调的刺激的一致和选择性反应表明，这些推定的音调选择性神经元和区域不是简单地反映声学信号的任何立即可用的物理特征。此外，有证据表明这些推定的音高选择性神经元以与动物大致相同的方式从光谱和时间线索中提取信息。然而，由于音调和声学信号之间的抽象关系，刺激和神经反应之间的这种相关证据只能被解释为听觉系统具有形成音高相关参数的增强表示的能力的证据。如果没有更直接的因果证据证明这些推定的音高选择性神经元和确定音高感知的神经区域，我们无法断定动物是否确实依赖于这种局部显式的音调代码，或者是否跨越听觉皮层的音高的强大分布式表示标志着最终在听觉系统中编码音高。

参考文献

↑ NeurOreille and authors（2010年）．Journey into the world of hearing．
↑ Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, 41, 1086-1093.
↑ Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).
↑ Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America, 59(4), 915-919.
↑ ^5.0 ^5.1 ^5.2 ^5.3 ^5.4 Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).
↑ Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).
↑ Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554
↑ ^8.0 ^8.1 Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.
↑ Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology, 87(1), 122-139.
↑ Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research, 141(1), 1-11.
↑ Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology, 76(3), 1698-1716.
↑ Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America, 101(5), 1421-1425.
↑ Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.
↑ Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).
↑ Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.
↑ Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science, 246(4929), 486-488.
↑ Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.
↑ Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.
↑ Kadia, S. C., & Wang, X. (2003). Spectral integration in A1 of awake primates: neurons with single-and multipeaked tuning characteristics. Journal of neurophysiology, 89(3), 1603-1622.
↑ Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.
↑ Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex, 13(7), 765-772.
↑ Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.
↑ Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.
↑ ^24.0 ^24.1 Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.
↑ Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76
↑ Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.

[1] NeurOreille and authors（2010年）．Journey into the world of hearing．

[2] Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, 41, 1086-1093.

[3] Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).

[4] Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America, 59(4), 915-919.

[:0-5] 5.0 ^5.1 ^5.2 ^5.3 ^5.4 Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).

[6] Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).

[7] Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554

[:1-8] 8.0 ^8.1 Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.

[9] Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology, 87(1), 122-139.

[10] Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research, 141(1), 1-11.

[11] Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology, 76(3), 1698-1716.

[12] Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America, 101(5), 1421-1425.

[13] Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.

[14] Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).

[15] Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.

[16] Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science, 246(4929), 486-488.

[17] Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.

[18] Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.

[19] Kadia, S. C., & Wang, X. (2003). Spectral integration in A1 of awake primates: neurons with single-and multipeaked tuning characteristics. Journal of neurophysiology, 89(3), 1603-1622.

[20] Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.

[21] Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex, 13(7), 765-772.

[22] Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.

[23] Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.

[:2-24] 24.0 ^24.1 Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.

[25] Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76

[26] Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]