感觉系统/听觉系统/音调处理
音调感知
[编辑]本节回顾了听觉神经科学的一个关键主题:音调感知。我们假设对听觉系统有一些基本的了解,因此鼓励读者首先阅读上述 '听觉系统剖析' 和 '听觉信号处理' 部分。
简介
[编辑]音高是一种主观感知,由具有近似周期性的声音引起。对于许多自然发生的声音,声音的周期性是音调的主要决定因素。然而,声学刺激和音调之间的关系是非常抽象的:特别地,音调对于其他声学参数(例如响度或音色的变化非常稳健,这两者可以显著改变声学波形的物理特性。例如,在没有任何共享频谱分量的声音可以引起相同音调的情况下,这尤其明显。 因此,必须从跨多个频率信道表示的频谱和/或时间线索中提取与音调相关的信息。
对听觉系统中的音调编码的研究主要集中在识别反映这些提取过程的神经过程,或者找到这种过程的“终点”:听者所感知的音调的明确,稳健的表示。这两项努力取得了一些成功,有证据表明假设的'音高区域'中的'音高选择性神经元'。然而,这些区域的活动是否真正与音高有关,或者它们是否仅仅表现出与音高相关的参数的选择性表示仍然存在争议。一方面,证明响应于许多音调唤起声音的特定神经元或神经区域的激活,通常具有其物理特性的显著变化,提供了令人信服的相关证据,即这些区域确实编码音高。另一方面,证明这些神经元代表音高的因果证据很难,可能需要结合体内记录方法来证明这些反应与音高判断(即心理物理反应,而不仅仅是刺激周期性)的对应关系,以及直接操纵这些细胞中活性的变化表明可以预测的俯仰感觉偏差或损伤。
由于音高相当抽象,我们不会立即深入研究这个尚未解决的活跃研究领域。 相反,我们开始讨论音调感知的最直接的物理对应物 - 即声音频率(对于纯音调),更一般地说,刺激周期性。 具体而言,我们将区分并更具体地定义周期性和音高的概念。 在此之后,我们将简要概述听觉系统可以实现的主要计算机制,以从声音刺激中提取这种与音调相关的信息。 随后,我们概述了耳蜗中的音高参数的表示和处理,升降的皮质下听觉通路,以及最后在初级听觉皮层及其他区域中更具争议性的发现,并评估这些中的“音高神经元”或“音高区域”的证据。 皮质区域。
周期性和音调
[编辑]音高是一种新兴的心理物理属性。音高的显著性和'高度'取决于几个因素,但在谐波和基频的特定范围内,称为'存在区域',音高显著性很大程度上取决于声音片段重复的规律性;通过重复率来调节高度,也称为调制频率。能够引起音调感知的声音集合是多样的并且在频谱上是异构的。许多不同的刺激 - 包括纯音,点击训练,迭代的波纹噪声,调幅声等等 - 可以唤起音调感知,而另一种声学信号,即使具有与这种刺激非常相似的物理特性也可能不会引起音调。大多数自然发生的音调唤起声音是谐波复合体 - 声音包含频谱的频谱,它是基频F0的整数倍。音调研究中的一个重要发现是'缺失基波'现象(见下文):在一定频率范围内,F0处的所有光谱能量都可以从谐波复合体中去除,并且仍然会引起与F0相关的音高。人类听众[1]。这一发现似乎推广到许多非人类听觉系统。[2][3].
由于两个原因,'缺失的基本'现像很重要。 首先,它是评估特定神经元或大脑区域是否专门用于音高处理的重要基准,因为应该预期这些单元显示反映F0(并因此音高)的活动,而不管其是否存在于声音和其他声学参数中。 更一般地,'俯仰神经元'或'俯仰中心'应该响应于引起俯仰高度的特定感知的所有刺激而显示一致的活动。 正如将要讨论的,这已经成为识别假定音高神经元或区域的一些分歧的根源。 其次,我们可以感知到对应于F0的音高,即使它在听觉刺激中不存在也提供了强有力的证据来反对大脑实现'选择'F0以直接推断音高的机制。 相反,音调必须从时间或频谱提示(或两者)中提取。[4].
音调提取机制:频谱和时间线索
[编辑]这两个线索(频谱和时间)是两类主要音调提取模型的基础[4]. 第一个是时域方法,它使用时间线索来评估声音是否由重复段组成,如果是,则重复率。通常提出的这样做的方法是 自相关。 自相关函数主要涉及找到两个采样点之间的时间延迟,这将给出最大相关性:例如,频率为100Hz(或周期,T = 10毫秒)的声波如果采样10将具有最大相关性10相隔几毫秒。对于200Hz波,产生最大相关性的延迟将是5毫秒 - 但也是10毫秒,15毫秒等等。因此,如果对F0 = 100Hz的谐波复合波的所有分量频率执行这样的函数(因此在200Hz,300Hz,400Hz等处具有谐波泛音),并且得到最大相关性的所得时间间隔被求和,它们将集体'投票'10毫秒 - 声音的周期性。第二类音调提取策略是频域方法,其中通过分析声音的频谱来提取音调以计算F0。例如,“模板匹配”过程 - 例如 ‘谐波筛’ - '建议声音的频谱简单地与谐波模板匹配 - 最佳匹配产生正确的F0[5].
两类解释都有局限性。频域方法要求解析谐波频率 - 即,将每个谐波表示为不同的频带(见右图)。然而,由于较高频率的生理表示中较宽的带宽(基底膜的对数音调排列结构的结果)而未解决的高次谐波仍然可以引起对应于F0的音调。时间模型没有这个问题,因为自相关函数仍应产生相同的周期性,无论该函数是在一个频道还是多个频率信道中执行。然而,难以将音调唤起频率的下限归因于自相关:心理物理学研究表明,我们可以从低于30Hz的基本缺失的谐波复合体中感知音调;这相当于超过33毫秒的采样延迟 - 远远超过神经信号通常观察到的~10毫秒延迟[4].
确定听觉系统采用这两种策略中的哪一种的一种策略是使用交替相位谐波:在正弦相位中产生奇次谐波,在馀弦相位中产生偶次谐波。由于这不会影响刺激的光谱内容,因此如果听者主要依赖于光谱线索,则不应发生音调感知的变化。另一方面,时间包络重复率将加倍。因此,如果采用时间包络线索,则听众对交替相位谐波感知的音调将是对具有相同频谱成分的全馀谐波感知的音调的高度(即,频率的两倍)。心理物理学研究已经研究了音高感知对不同F0和谐波范围内的这种相移的敏感性,提供了人类[6]和其他灵长类动物[7] 采用双重策略的证据:频谱线索用于较低阶,解析的谐波,而时间包络线索使用更高阶,未解决的谐波。
在上行性听觉路径提取音高
[编辑]据研究,在人类音高辨别最小可觉差 在1%以下[8]. 鉴于对音高变化的高灵敏度,以及频谱和时间提示都用于音高提取的证明,我们可以预测听觉系统以高度精确的方式表示声学刺激的频谱组成和时间精细结构,直到这些表示最终明确地传达周期性或音高选择性神经元。
电生理学实验已经在上升的听觉系统中发现了与这一概念一致的神经元反应。从耳蜗的水平,响应于听觉刺激的全景映射的基底膜(BM)运动建立了沿BM轴的频率成分的 位置代码 通过将听觉神经纤维(ANF) 锁相 到其响应的频率分量,进一步增强了这些表示。用于频率组成的时间表示的这种机制以多种方式进一步增强,例如毛细胞/螺旋神经节细胞突触的横向抑制[9],支持这种精确表示对于音调编码是关键的概念。
因此,通过该阶段,ANF的锁相时间尖峰模式可能携带周期性的隐式表示。这是由Cariani和Delgutte [10]. 直接测试的。通过分析猫的ANFs中所有阶段间穗间隔(ISI)的分布,他们发现最常见的ISI是刺激的周期性,并且这些分布的峰均比增加了复杂的刺激唤起更多显著的音调感知。基于这些发现,这些作者提出了“主导区间假设”,其中全阶ISI的汇总代码对周期性进行“投票” - 当然,这一发现是ANF锁相响应的必然结果。此外,有证据表明频率成分的地方代码也很重要。通过将低频刺激与高频载波交叉,Oxenham等人将低频正弦波的时间精细结构转换为沿著BM的更高频率区域。[11]这导致了音高辨别能力的显著受损。因此,位置和时间编码都表示ANF中的音调相关信息。
听觉神经将信息传递给耳蜗核(CN)。这里,许多细胞类型以不同方式表示与音调相关的信息。例如,许多浓密细胞似乎在听觉神经纤维的射击特性方面几乎没有差异 - 信息可能被带到更高阶的大脑区域而没有显著的改变[4]。特别感兴趣的是腹侧耳蜗核中持续的切碎细胞。根据Winter及其同事的观点,这些细胞中的一阶尖峰间隔对应于迭代波纹噪声刺激(IRN)的周期性,以及馀弦相和随机相位谐波复合,与声级完全不变[12].。虽然需要进一步表征这些细胞对不同引发音调的刺激的反应,但是因此有一些迹象表明音调提取可以早在CN的水平开始。
在下丘(IC)中,有一些证据表明神经元的平均反应率等于刺激的周期[13]. 。随后的研究比较了IC神经元对同相和交相谐波复合体的响应,表明这些细胞可能对整体能量水平的周期性(即包络)有反应,而不是真正的调制频率,但目前尚不清楚这仅适用于未解决的谐波(如心理物理实验所预测的)或解决的谐波[4]。关于IC中周期性的表示仍然存在很多不确定性。
在听觉皮层中进行音调编码
[编辑]因此,在整个上升的听觉系统中存在增强F0表示的趋势,尽管其精确性仍然不清楚。然而,在上行听觉通路的这些皮质下阶段中,没有证据表明一致地编码对应于感知音调的信息。这种表征可能发生在'较高'的听觉区域,从初级听觉皮层向前。
实际上,病变研究已经证明了听觉皮层在音高感知中的必要性。当然,对听觉皮层损伤后的音高检测的损害可能仅仅反映了皮质的被动传递作用:皮质下信息必须“通过”以影响行为。然而,惠特菲尔德的研究证明,情况可能并非如此:虽然剥皮猫可以重新训练(在他们的听觉皮层消融后)以识别由三个频率成分组成的复杂音调,但是动物选择性地失去了这种能力。将这些音调推广到具有相同音高的其他复合物[14]。换句话说,虽然谐波成分可能影响行为,但谐波关系(即音高线索)不能。例如,受损动物可以正确地响应100Hz的纯音,但不会响应由其谐波泛音(200Hz,300Hz等)组成的谐波复合波。这强烈地表明听觉皮层在进一步提取与音高相关的信息中的作用。
早期对初级听觉皮层的MEG研究表明A1含有一个俯仰图。这是基于以下结果:纯音及其缺失的基波谐波复合体(MF)在相同位置引起刺激诱发激发(称为N100m),而MF的分量频率在不同位置诱发激发[15] 。然而,这些观点被使用更高空间分辨率技术的实验结果所掩盖:局部场电位(LFP) 和 电生理学(MUA) 证明了映射A1是同位素 - 即基于神经元的最佳频率(BF),而不是最好的'音调'[16].然而,这些技术确实表现出反映提取时间和光谱线索的不同编码机制的出现:时间包络重复率的锁相表示被记录在音调图的较高BF区域中,而点击线的谐波结构被表示。因此,在较低的BF区[17]中,可以通过该阶段进一步提高沥青提取的提示。
Kadia和Wang在狨猴的初级听觉皮层中描述了可以促进这种增强的神经元底物的实例[18]。这里大约20%的神经元可以归类为'多峰'单元:具有多个频率响应区域的神经元,通常是谐波关系(见右图)。此外,激发这些光谱峰中的两个,显示出对神经元反应具有协同效应。因此,这将有助于提取声刺激中的谐波相关音调,允许这些神经元充当用于提取频谱提示的'谐波模板'。此外,这些作者观察到,在大多数'单峰'神经元(即在其BF处具有单个光谱调谐峰的神经元)中,次级音调可能对神经元对其的响应具有调节(促进或抑制)作用。 BF,同样,这些调制频率通常与BF谐波相关。因此,这些促进机制可以适应某些谐波分量的提取,而通过抑制调制来抑制其他频谱组合可以促进与其他谐波复合或诸如宽带噪声的非谐波复合的消歧。
然而,鉴于在整个皮质下听觉系统中已经证明了增强F0的趋势,我们可能期望必须更接近皮层中更明确的音高表示。神经影像学实验已经探索了这一观点,利用了音高的紧急质量:减法方法可以识别大脑中响应音调唤起刺激而显示 功能性磁共振成像 响应的区域,但不能识别具有非常相似光谱特性的另一种声音,但是不会引起音调感知。 Patterson,Griffiths及其同事使用了这样的策略:通过减去在呈现IRN期间获得的信号中呈现宽带噪声期间获得的BOLD信号,他们确定了侧向(在某种程度上,内侧)Heschl的选择性激活。 gyrus(HG)响应后一类音调唤起的声音[19]。此外,随著时间的推移改变IRN的重复率以产生旋律导致在颞上回(STG)和平面偏振(PP)中的额外激活,表明通过听觉皮层的音高的分级处理。与此一致,Krumbholz等人的MEG记录显示,随著IRN刺激的重复率增加,在HG周围检测到新的N100m,因为重复率超过了俯仰感知的下限阈值,并且'音调起始反应'随音高显著性增加[20].
然而,关于音调选择区域的精确位置存在一些争论。正如霍尔和普拉克所指出的,单独使用IRN刺激来识别对音高敏感的皮层区域不足以捕获可引起音高感知的广泛刺激:HG的激活可能是重复性宽带刺激所特有的[21]。实际上,基于响应多个引发节奏的刺激而观察到的BOLD信号,Hall和Plack认为平面临时(PT)与音高处理更相关。
尽管对专门用于音调编码的精确神经区域存在持续的分歧,但是这样的证据表明位于A1前外侧的区域可能专门用于音高感知。通过在狨猴听觉皮层的A1的前外侧边界处识别“音高选择性”神经元来提供对这一概念的进一步支持。这些神经元选择性地响应纯音和具有相似周期性的F0谐波[22]。许多这些神经元也对其他引起节奏的刺激的周期性敏感,例如点击列车或IRN噪声。这提供了强有力的证据,即这些神经元不仅仅响应声学信号的任何特定分量,而且具体地表示与音调相关的信息。
周期性编码或音调编码?
[编辑]因此,越来越多的证据表明存在专门提取F0的神经元和神经区域,可能位于A1的低BF区域的前外侧区域。然而,将这些神经元或区域称为“音高选择性”仍然存在困难。虽然刺激F0当然是音高的关键决定因素,但它不一定等于听众所感知的音高。
然而,有几条证据表明这些区域确实是编码间距,而不仅仅是F0。例如,Bendor及其同事对狨猴沥青选择性单位的进一步研究表明,这些神经元中的活动很好地与动物的心理物理反应相对应[7]。这些作者测试了动物在同一F0中持续呈现同相谐波的过程中检测交替相位谐波复合体的能力,以便区分动物何时更多地依赖于时间包络提示进行音高感知,而不是光谱提示。 。与人类的心理物理实验一致,狨猴主要使用时间包络线索来获得低阶F0的高阶,未解析的谐波,而光谱线索则用于从高F0复合波的低阶谐波中提取音调。从这些音高选择性神经元的记录显示,与调谐到低F0的神经元的同相谐波相比,F0调谐向下移动了八度音阶以进行交替相位谐波。因此,这些神经元反应模式与心理物理学结果一致,并且表明时间和光谱线索都集成在这些神经元中以影响音调感知。
然而,再次,这项研究无法明确区分这些音高选择性神经元是否明确表示音高,或者仅仅是F0信息的积分,然后将其解码以感知音高。 Bizley等人采用了一种更直接的方法来解决这个问题,他分析了雪貂的听觉皮层LFP和MUA测量值如何能够独立地用于估计刺激F0和俯仰感知[23]。虽然雪貂参与音高辨别任务(以指示目标人造元音的音高是否高于或低于2替代强制选择范例中的参考),使用接收器操作特性(ROC)分析来估计可辨性。神经活动在预测F0变化或实际行为选择(即感知音高的替代)中的作用。他们发现听觉皮层的神经反应对两者都有信息。最初,活动比动物的选择更好地区分F0,但是关于动物选择的信息在整个刺激后的时间间隔内稳定地增加,最终变得比F0变化的方向更可辨别[23]。
比较研究的皮质区域之间的ROC差异表明,后场活动更好地区分了雪貂的选择。这可以用两种方式解释。由于选择相关活动在后场(其位于A1的低BF边界)较高,与原始场相比,这可以被视为A1低BF边界附近的沥青选择性的进一步证据。另一方面,在主要听觉区域中也观察到与音调相关的信息的事实可能表明该阶段可能已经建立了足够的音调相关信息,或者跨越多个听觉区域的分布式代码编码音调。实际上,虽然分布在听觉皮层上的单个神经元通常对多个声学参数敏感(因此不是“音调选择性”),但信息理论或神经测量分析(使用神经数据推断刺激相关信息)表明音调信息可以然而,通过人口编码,甚至通过时间复用的单个神经元(即,在不同的时间窗口中表示多个声音特征)来强有力地表示[24][25]。因此,在没有刺激或停用这些推定的音高选择性神经元或区域以证明这种干预引起音高的可预测偏差或损伤的情况下,可能是音高以跨越听觉皮层的空间和时间分布的代码表示,而不是而不是依靠专门的当地代表。
因此,电生理记录和神经影像学研究都表明,在A1的低BF边界附近可能存在明显的俯仰神经代码。当然,对各种引发音调的刺激的一致和选择性反应表明,这些推定的音调选择性神经元和区域不是简单地反映声学信号的任何立即可用的物理特征。此外,有证据表明这些推定的音高选择性神经元以与动物大致相同的方式从光谱和时间线索中提取信息。然而,由于音调和声学信号之间的抽象关系,刺激和神经反应之间的这种相关证据只能被解释为听觉系统具有形成音高相关参数的增强表示的能力的证据。如果没有更直接的因果证据证明这些推定的音高选择性神经元和确定音高感知的神经区域,我们无法断定动物是否确实依赖于这种局部显式的音调代码,或者是否跨越听觉皮层的音高的强大分布式表示标志著最终在听觉系统中编码音高。
参考文献
[编辑]- ↑ Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, 41, 1086-1093.
- ↑ Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).
- ↑ Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America, 59(4), 915-919.
- ↑ 4.0 4.1 4.2 4.3 4.4 Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).
- ↑ Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).
- ↑ Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554
- ↑ 7.0 7.1 Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.
- ↑ Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology, 87(1), 122-139.
- ↑ Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research, 141(1), 1-11.
- ↑ Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology, 76(3), 1698-1716.
- ↑ Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America, 101(5), 1421-1425.
- ↑ Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.
- ↑ Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).
- ↑ Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.
- ↑ Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science, 246(4929), 486-488.
- ↑ Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.
- ↑ Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.
- ↑ Kadia, S. C., & Wang, X. (2003). Spectral integration in A1 of awake primates: neurons with single-and multipeaked tuning characteristics. Journal of neurophysiology, 89(3), 1603-1622.
- ↑ Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.
- ↑ Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex, 13(7), 765-772.
- ↑ Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.
- ↑ Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.
- ↑ 23.0 23.1 Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.
- ↑ Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76
- ↑ Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.