感知即现实：从音频工程师的角度看心理声学_视听声学基础及软件分析_音频应用

向阳花木 发表于 2018-4-6

感知即现实：从音频工程师的角度看心理声学

   Perception Is Reality: Psyc hoacoustics From An Audio Engineer’s Perspective
   感知即现实：从音频工程师的角度看心理声学
   我们都曾经历过音量过大而令人不安、刺耳、甚至已经无法理解的演出。大音量的混音会强行塞满我们的耳朵，让我们痛苦难堪。经过几分钟的聆听后，耳朵就开始疲劳了。你想要离开，但是那数百块的演唱会门票迫使你想留下来。如果是完全相反，一场很好的表演并且是出色的混音，那将是两全其美。
   然而笔者经历过很多上述第一类的演出，第二类两全其美的演出却不多，也未曾深究声音过大的演出与主扩调音师年龄、经验或职业成功之间是否有关联之处。无论是听力损伤、缺乏实践、乐队施加的压力，亦或其中的某些组合，有一点是肯定的——观众会为此付出代价。
   音频专业人员责任在于不影响演出质量的前提下为观众提供演出。然而问题是，很多工程师和技术人员如果被问到相关这方面的问题，他们也不确定做这些是为了什么，更不必说要如何做到这一点了。所以，让我们将在实践中所经历的与我们所知道的重点联系起来，希望可以奠定一些基础知识。

   听觉的非线性响应
   为了理解在混音手段和系统均衡中应该避免什么，首先要知道为什么我们听音乐的方式是这样的。
   1933 年。Bell Labs（贝尔实验室）的两位物理学家，Harvey Fletcher（哈维弗莱彻）和 Wilden A. Munson（威尔登 A.蒙森）发表了一篇题目为《响度及其定义、测量和计算》的论文，他们揭示了一个突破性的发现：人类耳朵的响应并不是线性的——也就是说，它不能平均地听到所有频率的声音。
   这一发现是一系列测试的结果，实验对象通过耳机聆听 1 kHz的音调，接着是 2 kHz 的音调，然后要求判定第二种音调是否比第一个音调更响或更轻。这个过程都是在音频频谱内不断地上下移动，每次以 1 kHz 作为参考电平。从该响应中取平均得到的曲线，被称为 Fletcher-Munson（弗莱彻-蒙森）曲线。
   测试的结果并不是没有瑕疵，除了在 20 世纪 30 年代早期测试设备的限制（如低频段难以重现），许多参与者都是乘火车过来的，所以在测试前几分钟，他们还是暴露在不同程度的环境噪音中。近年，ISO 重造了测试并提高了准确性，公布了修订版本，即现在被称为“等响（度）曲线”。
   这个实验得出了另一个重要的发现：随着聆听音量的增加，曲线也会发生变化。在听觉阈（大约 10 方响度）附近，我们对 1 kHz 频率的敏感度是 100 Hz 附近的 8 倍。然而在 100 dB SPL 的情况下，曲线变得平缓，而敏感度差异仅仅是两倍。这意味着我们听到的频率在更高的声压电平上表现得最均匀，因此，音乐听起来更“饱满”。
   这个时候，你可能会问，为什么在这个世界上我们的听觉响应会如此的怪状，更不必说在高聆听声压的动态下压效应了。答案就在于耳朵的构造，它本身就像是一座辉煌的建筑。我们大多数人都上过高中的健康课，在那里我们学习了耳朵的基本部件和划分——耳道、耳膜、锤骨/砧骨、耳蜗，但如果我们从音频工程师的角度来看，这些会变得更有意义。

红色线为等响（度）曲线（ISO 226:2003）
蓝色线为 Fletcher-Munson 曲线

   外耳
   声波通过耳道进入，这实际上是一个管式谐振器。这种极短的混响以至于被视为是均衡，在我们的听觉响应中，会在 2 kHz 到 6 kHz 的范围产生大幅度的提升 (高达 20 dB)。
   当声音向耳道末端传播时，它会刺激鼓膜(耳膜)。这种自然地发生的换能器将声压转换成机械能。耳咽管作为防止耳膜后面反向压力积聚的口子。
   在这一点上，我们还发现了第一级的压缩/限制——鼓膜张肌，一种连接于鼓膜的肌肉，当它处于强振动时会抑制耳膜的换能作用。这个初级压缩阶段组成了听觉学家所称的声学反射，后面将会简述它。

外耳结构截面图

   中耳
   当声波（现以机械压力的形式）从耳膜出来时，它们穿过了锤骨和砧骨，也被称为锤和砧。这些小骨骼，即我们所说的听小骨，主要目的是将机械能转化为耳蜗内液体的压力变化。这是一项艰巨的任务，因为我们知道液体产生的阻抗作用比空气高得多。
   为了完成必要的“阻抗”匹配，这些听小骨充当了一系列复杂的杠杆作用，听小骨连接到耳蜗，将跨越大范围的（耳膜）从低压变化转换为跨越小范围的高压变化。这样下来会产生大约 30 dB 的增益补偿，确保传递到内耳的声音可以是在可用的电平上。
   在我们的“声学反射系统”中，第二级的压缩/限制是由镫骨肌组成的，这是一种在高声压级运动中稳定听小骨的小肌肉。由于镫骨肌的劲化作用只会限制较大（较低频率）的位移，故只对 2 kHz 以下的频率有效。

向阳花木 发表于 2018-4-6

同样要注意的重点是，第二级的限制是本能地触发的，而第一级（鼓膜张肌）是自愿的。这两级压缩的声压级“阈值”可以在 70 到 105 dB 之间，启动或反应时间会在 10 到 100 ms 之间。综合起来，我们的声学反射系统有能力承受高达 140 dB 的声压级，相当于 100 万亿：1 的压缩。

耳蜗横截面中的基底膜和听觉螺旋器

   内耳
   在听小骨链的末端还有镫骨，通常被称为耳蜗的“踏板”或“马镫”，它相当于活塞，驱使液体在它的两个外腔内前后流动。声波沿着上腔向其顶点移动，然后转过来，沿着下腔向底部移动。振动将能量传递给充满流体的阶介质(中腔)，实际上它包含了信号链的“A/D 转换器”。
   静止在该腔底部的是螺旋器，它包含大约 25000 个毛细胞，和盖膜一样皮瓣般覆盖着毛细胞。盖膜的长度会根据不同频率被特定地“调谐”共振，顶部宽且柔韧，用于低频段；底部窄且硬，用于高频段。毛细胞的大小和硬度也会根据用于不同频率而产生差异。
   这就是有趣的地方了。当流体中的振动使（耳蜗）盖膜形成运动时，外毛细胞(通常是三个)对振动作出反应，并将信息传递给听觉神经。然而，内毛细胞有着完全不同的作用：它们向上伸展并在高电平时抑制盖膜。因为毛细胞被分成 32 个特定的频段，内毛细胞实际上是一个 32 频段的压缩器(我们的第三级)，可以在高电平下特定范围内保护外层细胞。

听觉螺旋器官中的盖膜和毛细胞。

   重点
   读到这里，你会发现在我们的听力系统中存有多级的 EQ 和压缩，这些都导致了非线性的频率响应。
   其实也很简单：人类的耳朵是专门为口头交流的清晰度而设计出的聪颖作品。如果你观察人声的摄谱密度，你会注意到，人们说话的辅音（2 kHz 到6 kHz）附近的提升是最强的，在更高或更低的频段范围需要得并不多——这也解释了为什么我们在这些频段的响应不好。
   我们作为音频工程师和技术人员来说也是相当明确：为了使我们能够均匀地听到音乐，必须对一些频段范围进行补偿。假设一个系统的 EQ(或者是混音)类似于我们的听觉曲线相反的形状，看起来是一个简单而且符合逻辑的解决方案，实际上一个聆听测试很快让你改变你的想法。
   在处理任何复杂问题时都会如此，我们总对任何简单的、全面的解决方案产生怀疑。然而，我们可以根据所学到的东西，合理地得出一些结论。首先，重要的是要认识到“平直”的系统响应可能并不会很好听。因为我们的听觉响应曲线是非线性的，我们没有注意到它们，而是将它们解释为“标准”。然而，一个响应调整为真正平直的系统将会迅速地揭示我们听力曲线的峰值，并导致觉得音乐内容粗糙、缺乏温暖。
   其次我们必须要认识到，由于我们的听觉中的高频段响应差，大多数试图在这个范围内进行补偿，听起来太多的“染色” “空气感” 或“嘶声” 。然而许多乐器在 8 kHz 到 12 kHz 范围内都包含了高次谐波，我们会通过听觉的非线性响应，自然地能在低电平上听到这些频率，因此说该频段范围电平高是不自然的。
   还有由于电吉他、钢琴、B3 管风琴和镲片中许多的上中谐波都位于 2 kHz 至 5 kHz 的范围内（我们对此范围高度敏感），我们应该警惕这一范围过度饱和。当我们结合这个事实，很多人都会在人声话筒的这个范围内都有很大的提升，它将会很快变成混音的一个危险粗糙刺耳的区域。通常，单个通道、系统均衡或两者中都可能需要少量的 EQ 来防止这种现象的累积。

图解听觉曲线在 80 dB(以上)和 100 dB的平直程度。

   笔者的个人经验
   笔者在多年来的音频系统调试中，笔者总是倾向于从低频向后下倾的频谱响应，这种响应可以使超低音符合我们的听觉曲线，然后从 100 Hz 到 400 Hz 或更高逐渐变平。中频范围大部分保持平直，而高频部分可能会轻微的下降，这取决于笔者与 PA团队的合作。我通常会参考一些在 2 kHz 到 5 kHz 内有很好内容的音轨，以确保这些范围内不会变得令人感到不愉快。
   在混音时笔者发现，运行着一个长平均（7 到 10 秒）的实时频谱分析是非常有用的工具。当乐队在全力演奏一首歌，且混音的摄谱密度的斜率较为稳定，平均大约是-3 分贝的时候，此时观察到混音的感觉是最平衡的，感觉像是被包围着。当我混音进行了几个小时后，耳朵也觉得累了，或者当混音的位置是在一个不太能听得到 PA 声音的地方时，它也可以帮助“在两者之间”取舍。
   虽然理解如何建立一个有能量而且平衡度很好的混音并不是一件简单的任务，扎实的心理声学基础知识得以应用是一个奠基石。在某种程度上，这就好像是一个人偷看他人的剧本一样，了解观众所需，可以帮助我们避免在现场混音中的一些常见错误。

EQ 处理后的系统响应（绿色）的响应相比完成混音后的长时间平均频率响应(红色)，可在低频范围内得到足够的权重。

andyp 发表于 2019-11-23

分享哇！受用、学习了！太感谢楼主了…

页: [1]

音频应用's Archiver

感知即现实：从音频工程师的角度看心理声学