vesperW · 2024年12月31日

走进音频:器件与效果篇

1 引言

1.1 目的和对象

Android 手机音频经过多年累积持续迭代,日趋完善,系统趋于稳定。但随着应用的丰富,场景的多样性,以及生态的碎片化,当前的音频架构,依然存在种种缺陷,包括历史遗留包袱。最具代表性的,诸如复杂的音量调节控制,复杂的通话路由策略,特别是蓝牙音频路由,带来的三方应用兼容性问题,始终是 Android 系统的核心痛点,尽管 Google 做了很大努力,问题依然多发。

从本文开始将在内核工匠栏目中,以《走进音频》系列专题,和大家一起探讨手机音频的过去、现在和未来。

本文作为基础篇,介绍手机音频基本知识,侧重于音频器件与效果,与大家探讨如何更加合理的开发、应用、音频器件和算法,提升用户体验。笔者自 Android 1.5 以来从事音频开发调试,以自己的理解,谈一谈自己的浅知拙见,以此与大家共同探讨与研究,敬请广大同仁不吝赐教!

本文适用于 Android 音频开发人员查看。

1.2 音效概念

提及音效,大家都能说出“杜比”,“DTS”,“SRS”这些行业大佬,作为音乐发烧友的你可能还体验过 WAVES,BBE,甚至包括主打高保真还原的 Dirac HD Sound。除了这专业音效品牌,还包括了各 OEM 厂家自研的音效,例如华为的 Histen,三星的 SoundAlive,Vivo 的 VAFX,小米的 MiSound,以及 OPPO 自研的 AudioX。还有各 APP 内置的一些的音效。

image.png

从效果调音的维度上来讲,常见的有 EQ 均衡器(包括 PEG,GEQ),混响(Reverb),声波可视(Visualizer),虚拟声(Virtualizer),重低音(BassBoost,又称低音增强),还有杜比提供的 VBass(Virtual Bass,虚拟低音)。广义的音效,还包括音频 3A 算法:AGC(Automatic Gain Control),ANS(Automatic Noise Suppression),AEC(Acoustic Enco Canceller)

从算法上讲,除了耳熟能详的众多传统音效算法外,还包括了沉浸式音频新赛道的各类算法,代表性的应用有空间音频,全息音频,以及由此带来的,声音对象分离算法,基于房屋模型、空间模型的各种空间渲染算法,持续演进迭代。

AI 音频的发展,更丰富了音频的玩法,例如 AI 语噪分离用于通话降噪、人声增强,AI 声象分离用于环境感知、声场拓宽, 甚至还包括音频超分,重建高频,低频信号,用于提升音频质量,修复老电影。语音超分 SSR(Super Speech Resolution)

从内容上,音效是一个相当宽泛的概念,一些 ogg 声音特效资源,例如脚步声,海浪声,冲击声等提示音,用于衬托气氛的特效音源,也常被称为音效。

2 电声学基础

为了便于描述和理解,这里简要介绍音效相关的物理声学基础知识,如有声学基础的同学,可以跳过这部分内容。

2.1 声音的物理特性

我们都清楚,声音的本质是机械振动或气流扰动引起周围弹性介质发生波动的现象,因此声波又可称为弹性波。引起声波的物体称为声源,声波所及的空间范围称为声场。声波在气体、液体、固体中均可以传播。

声波既然是一种波动现象,那么它也具有一般的波动现象所共有的特性,如反射、绕射、折射(如果以上三种同时存在,统称为衍射,当衍射没有规则时,又称为“散射”)及干涉现象等。

2.1.1  声压与声压级

Image

声压与声场

声压

声音扰动产生的逾压,声压就是大气压受到声波扰动后产生的变化,即为大气压强的逾压,它相当于在大气压强上的叠加一个声波扰动引起的压强变化。通俗来讲,声场中的质点,没有声波扰动的时候,只受到静态大气压(P0)的挤压。当受到声波扰动时,空气的疏密度发生了变化,质点受到的挤压程度发生了变化,承受一个新的压强(P1)与原来的压强的差值,我们称为“逾压”,也就是声压,通常用字母 p 表示。

p = P1 – P0

声压和气压一样,没有方向,是一个标量,单位沿用大气压的单位 Pa(牛顿/米 2),一个标准大气压规定为 101325 Pa,工程计算中取近似值 105 Pa,用帕值(SI 单位)表示的大气压,本文统一记为 P0 或 Pref

声压的相位按着下面的原则,来区分正负:

Ø 当声压这个变化,使质点承受的压强,比静态大气压增加时,其声压相位为正。这意味着质点周围的空气更稠密。

Ø 反之,质点承压减小,则为负。这意味着质点周围的空气更稀疏。

声压级

人类对声音强弱的感觉大体上与声压的对数成比例,为了适应人耳听觉特性,也方便计算,常把声压的有效值和声强值取对数来表示声音的强弱。这种表示声音强弱的数值叫声压级和声强级,单位为分贝(dB):

image.png

算式中:

SPL ——为声压级单位为分贝(dB);
P ——质点的声压有效值;
Pref ——为参考声压,作为零声级的参考声压值,它取用 Iref 对应的声压有效值:

image.png

即两个大气压,这个数值是人耳对 1kHZ 声音刚刚能察觉其存在的声压值,也就是 1khz 声音的可听阈值声压。显然,基准声压级为 0db,称为听阈。

一般交谈为 60 db,纺织车间为 100 db,高于 120 db 耳朵会有痛感,这个声压级为痛阈。

人耳可以清晰感知到的音量变化区间为 3dB,所以通常以 3dB 为梯度的等级调节增音量。

2.1.2  声强与声强级

声强

单位时间内,通过(穿过)指定平面上的单位面积的声能,也即:穿过指定方向上的单位面积的声功率。总之,声强表示声场中能量的流动密度。用符号 I 表示。国际制单位为瓦/m2

声强级

image.png

算式中:

SIL ——为声强级,单位为分贝(dB);
I —— 质点的声强值;

Iref —— 为参考声强,零声级的参考声强值,也就是参考基准声压 2 × 10-5 pa 相对应的声强。国际规定:Iref = 10-12 瓦/米 2 ,这个数值是一般具有正常听力的年轻人,对 1KHz 的声音信号刚刚好能察觉到它的存在的声强值。

声压级与声强的关系

image.png

Iref 为参考声强,声强增加 1 倍,声压级增加 3 dB,通常音量大小,是以 3dB 为步进调节的。

声压级与距离的关系:

image.png

rref 为参考距离

距离增加 1 倍,声压级减少 6 dB

2.1.3  声波物理特性

声音客观构成:振幅(大、小);频率(快、慢);谐波

振幅

声波的振动幅度,它的大小影响到人耳对声音强弱的感觉强度(即响度),单位是分贝(dB)

频率

声波每秒钟振动的次数。它直接影响人耳对声音高低(音调)的感觉。单位:赫兹(Hz)。

声音频率主观特性:

  • 高频声音 ‌:通常比较尖细,如蚊子叫声、海豚音等。‌ 高频过高,声音刺耳。
  • ‌ 低频声音 ‌:较为低沉,如布谷鸟叫声、脚步声、电梯声等。‌ 低频过高,声音沉闷

谐波

√ 什么是谐波?

在深入了解偶次谐波和奇次谐波的具体细节之前,我们先来了解一下什么是谐波。最简单地说,谐波就是物体振动的多个频率。当你拨动吉他弦、敲击钢琴键,甚至当你说话时,所产生的声音并不只是一个单一的频率,而是基频(最低频率)和一系列被称为谐波或泛音的较高频率的复杂混合物。这些谐波与声音的音色或色彩密不可分,赋予了每种乐器和声音独特的个性。

指声波的波形成分。包括瞬间状态。它直接影响人们对声音音质差异(音色)的感觉。

√ 偶次谐波

偶次谐波是发生在基频偶数倍处的谐波。如果一个音符的基频是 100 赫兹,那么它的偶次谐波就会出现在 200 赫兹(2 次谐波)、400 赫兹(4 次谐波)、800 赫兹(8 次谐波)等频率上。

偶次谐波往往会给声音增添某种温暖和饱满的感觉,通常被认为是悦耳和谐的。长笛或弦乐等乐器在以特定方式演奏时,可以产生丰富的偶次谐波,从而使音色更加婉转动听。

√ 奇次谐波

与此相反,奇次谐波发生在基频的奇数倍处。继续前面的例子,100 赫兹音符的奇次谐波为 300 赫兹(3 次谐波)、500 赫兹(5 次谐波)、700 赫兹(7 次谐波)等。

奇次谐波会给声音带来更尖锐、更明显的音质,通常与亮度或甚至有点前卫有关。铜管乐器、带失真的电吉他以及许多类型的合成器都以奇次谐波为显著特征,这也决定了它们的大部分特性。

√ 偶次谐波与奇次谐波的区别

了解偶次谐波和奇次谐波之间的区别对音乐制作人来说至关重要,因为这直接影响到他们创作的音乐的质感和音色。以下是主要区别:

音质:偶数次谐波往往能产生平滑、温暖和丰富的声音。这使得偶次谐波特别适合强调旋律与和声的音乐类型,如古典音乐、爵士乐和某些类型的电子音乐。

另一方面,奇次谐波能使音色更明亮、清晰,有时甚至更具攻击性,因此适合摇滚、金属和电子舞曲等需要更明显音色的音乐类型。

谐音系列:偶次谐波音列以基频的偶数倍递增,因此音列与原始音符的融合更为完美。奇数和声音阶虽然仍具有和声关系,但引入的音程可增加紧张感或不和谐感,提供了不同的音色可能性。

乐器特性:某些乐器根据其构造和发声方式,会自然而然地强调偶次或奇次谐波。例如,弦乐器和某些木管乐器在轻声演奏时,具有明显的偶次谐波内容。而铜管乐器和失真电吉他则富含奇次谐波。

√ 泛音

真实环境中,声源往往不是一个理想化的点声源模型,发声体在振动过程中,除了整体产生一个基频音(声音能量主体,响度高,理想化的点声源模型)外,还包括许多复合振动,这些复合振动产生的声音混合,称为泛音。泛音包含其他多个频率,但是响度很低。

泛音和谐音是不同的,谐音是指谐波成分,频率为基频的整数倍的信号,例如 1,2,3,4,5…N 倍。其中,奇数倍成分称为奇次谐波;偶数倍成分称为偶次谐波。

除了整数倍外,还包括,非基频整数倍的频率成分。

所有频率的声音放在一起,称为泛音,其中整数倍基频为谐音(谐波)

泛音与谐音的关系:

Image

2.1.4  声音的传播

如上所述,当一个物体受外力作用时,产生一个往复的弹性振动,这样就产生了声波,经过介质(物体、空间或水)向四面八方传播。当人耳接受声波的振动,通过听觉神经传达给大脑。我们可以抽象出来以下几个主要过程:

Image

直射与反射

声波在传递过程中,不可避免遇到一些障碍物,就会发生反射,例如在房间内,还存在多次反射,传输过程中,声波能量也会产生衰减。人耳会多次听到,同一个声音。下图是一个简单的房屋模型:

Image

  • 直达声:是室内任一点直接接收到声源发出的声音,它是接收声音的主体,又叫主达声,不受空间界面的影响,其声强基本上是与听点到声源间距离的平方成反比例衰减。
  • 早期反射声:指延迟直达声 50ms 以内到达听声点的反射声,对声音起到增强作用;在大空间内,因反射距离远,易形成回声,产生空间感。
  • 混响声:声波经室内界面的多次反射,迟于早期反射声到达听点的声音,直至声源停止发声,但由于多次反射,听点仍能听到,故又称余声,影响声音的清晰度。

混响时间:在一个声场中,一个声音的声压级衰减 60dB 所需要的时间,用 T60 来表示,单位:秒(s)

T60 = 0.16V/Sa (赛宾公式)

V:声场总容积
S:声场表面积
a:声场的建筑装饰材料的平均吸声系数。

例如:某段音乐的声压级为 90dB,此时终止音乐,音乐声逐渐减弱,当其声压级从 90dB 降至 30dB 时,可需时 1.2 秒,那么,此房间的混响时间为 1.2 秒。

绕射与散射

声波在传播过程中遇到障碍物,能够绕过障碍物的边缘前进,这种现象叫波的绕射,又称声衍射。

当声波波长大于障碍物的尺寸,但在 10 倍以内时,障碍物会化成一个新的声源,使声波向四周散射,这种现象叫声波的散射。

例如:声源处于人耳的背后时,由于人耳壳的遮蔽作用,声源中低频音会绕过耳廓,使人听到,而声源中的高频部分则在人耳处形成声影区,使其减弱。

再例如:音乐会时,后排座位的听众听到的低频强、高频弱,声音比较沉闷,就是因为低频可绕射,而高频音被遮挡的原因。

Image

声音的指向性

Image

不同频率声音的指向性

  • 高频声音指向性很强,覆盖角度狭小、射程远、穿透力强。
  • 中频声音有一定指向性,覆盖面积比较容易控制。
  • 低频指向性不明显,向四面辐射、声音能量损失大、传播距离近。

Image

不同频率声音的覆盖面积

利用这个特性,就可以应用在环境降噪设计:

  • 高频噪音随着距离的增加或遭遇障碍物时,能迅速衰减。‌
  • 低频噪音衰减相对较慢,声波较长,能轻易穿越障碍物,长距离传播和穿墙透壁直入人耳。

声音的共振

声音的振动和传播过程中,有一种很重要的物理现象——共振,也叫共鸣。当策动力变化的频率跟物体本身的固有频率一致时,振动的幅度就会增加到峰值,这种现象叫共振。

例如,暖水瓶接水时,听到声音会有低频逐渐变成高频声音。水流击水产生的声音频宽很宽,既有低频、又有高频。刚接水时,暖瓶的空间很大,固有频率低,水流击水的低频音产生共振,低频加强;水壶快满时,水瓶空间变小,共振腔体变小,共振频率提高,与水流击水产生的高频音产生共振,高频加强,即听到高频音。

骨导与气导

声音从音源传入大脑有两个途径:

  • 音源 -> 空气 -> 人耳 -> 大脑
  • 音源 ->  人体颅骨 -> 大脑

前者被称为,声音的气导,后者被称为声音的骨导,又称为“颅骨效应”。例如捂住双耳,仍可以听到自己说话,就是利用了颅骨效应。听自己的声音,有两个途径,所以频带宽、音色好。

哈斯效应

一个声场中的两个同频声源,在传入人耳的时间差在 50ms 以内时,人耳无法明显辨别出它们的方位。哪个声音先来,那么人就感觉到声音由此方位传来。这种先入为主的听觉特性叫哈斯效应。

如果两个声音发生时间,间隔时间超过 50ms 时,听感上有回声,叫优先效应。

具体现象:

  • 两侧声源 A、B 与人耳距离相同时,人们感觉声音由前方传来,俗称“假立体声”。
  • 当距离 A 声源略近时,实际上应该是 A 音大,B 音小的两个声源,但人们往往只感觉到所有的声音均由 A 发出,这种错觉现象即是“哈斯效应”。
  • 当把 A 的声音加以延时,使它迟与 B 声源传入人耳,人们即感觉到所有的声音均由 B 声源发出。

人们利用哈斯效应,进行空间化渲染,典型的应用就是空间音频。

掩蔽效应

当不同频率的声音在同一声场中传递,各频率之间,一种声音被另外一种声音掩盖而听不到到的心理声学现象。

有两个现象:

  • 声音能量大的掩盖声音能量小的。
  • 中频声音掩盖高频和低频声音。

当同时听到两个,或者两个以上声音时,听感上,一个声音会被其他声音干扰,可听阈提高,需要加大响度才能听到。

√ 中频音容易掩蔽高、低音。原因是人耳对 700-3000Hz 的中频声音听觉最为灵敏,在声强相等下,主观感受强度高于高、低频声音。在信号处理中,需要压低中频信号,适当提拉高频、尤其是低频信号。

√ 相近频率容易相互掩蔽。因此频响曲线,需要尽可能的平直,避免出现陡峭的波动。

√ 掩蔽声压级提高,掩蔽范围扩大。

Image

声音的掩蔽效应(频域)

应用:利用掩蔽效应,对声频信号进行压缩,提高压缩效率。心理声学编码。例如 mp3,杜比 ac3。

2.2  声音的主观特性

构成人耳对声音听觉特性的要素是:响度、音调(音高)、音色(音品),也就是人们所熟知的声音三要素。

随着空间音频的普及,声音对象的 3D 空间位置,以及运动方向,成为新的研究热点。

2.2.1  响度

人耳感觉到的声音的强弱,物理学上指振动幅度。响度大小取决于发声体的振动幅度,距离(声音传输过程中存在响度衰减),其次是频率。

人耳对不同频率的敏感度是不一样的,同样的声压级,低频信号,听起来响度会比中高频信号响度低。虽然物理声学上,是同响度,但是主观上,确不是同响度。这也是为什么要对低频声音补偿,去做 BassBoost 的原因。

人耳听觉对各个频率灵敏度是非线性的。声学上吧描述响度、振幅、频率之间关系的曲线叫做等响度曲线。绘制等响度曲线,以人耳最常见 1kHz 声波作为参考响度(ref)。

如下图:底部红线为可听阈,定义参考响度(1KHz)为 0db,最上面的线,定义为痛阈,定义参考响度(1KHz)为 120dB。

Image

人耳等响曲线(非线性)

等响映射表:

image.pngq

Image

  • 声压级越高,人耳感觉声音响度越大。
  • 人耳的声压范围是:0 ~ 120 dB。
  • 4 ~ 5 KHz 附近的声音最响,因外耳道与其产生共振。
  • 低声压时,低频区的声音响度大于高频声音的响度。
2.2.2  音调

音调,又称音高,它的高低取决于发声体的振动频率。其变化主要取决于声音频率的对数值,其次取决于声音的振幅。例如鼓声音调低,钢琴音调高。人耳对中频 1khz 最敏感, 高频次之,低频最弱。因此同一响度下,需要对低频,高频进行增益提拉,才能达到主观均衡的效果。

频率越高,音调越高,频率增加一倍,声学上称之为增加一个“倍频程”,音乐上叫“提高一个八度”。音调单位:美(mei)。

音调与频率的关系

人耳听觉频率范围:20Hz – 20KHz,其中 700 – 3000Hz 最为灵敏。

语言的频率范围是:100 – 10KHz。

音乐的频率范围是:50 – 15 KHz。

音调与声压的关系

1K – 2KHz 以上的高音区,声压增大,主观感觉音调提升。

500Hz 以下的声音,声压增大,感觉声音低沉,音调下降。

栅栏效应

如果基频缺失,把声音的基频成分滤去后,剩下的谐波成分,音调不变。

例如:200,400,600,800 Hz 的纯音组成复合音,音调由 200 Hz 基频决定。滤去基频成分,剩下 400,600,800 Hz 部分,音调不变。

音阶

音阶是音乐中的概念,就是指把声音按频率分段,一个频段是一个音阶。世界上通用的十二平分律,“等程音阶”的基频频率,音乐上每增高或者降低一个“纯八度音”(简称“八度音”),正好是声音频率增加或者降低一倍,十二平分律等程音阶,正是在一个倍频程的频率范围内,按频率的对数分成十二个等份划分音阶的。

这十二个音阶中相邻的两个音称为一个半音,相隔一个音为一个全音。在音乐里,对其中七个音分别取名为 C、D、E、F、G、A、B 的音名。剩下的五个音按提升半音,或者降半音记名, 由此得出一个倍频程为 8 度音。一个音名称为 1 度。

2.2.3  音色

音色又称为音品,指声音除了音调和响度意外的音质差异。它与声音的频谱结构、包络和波形有关。发声体的泛音结构不同,频响曲线不同,材质种类不同、声学腔体结构不同造成音色的不同。

声音的泛音(或谐波成分),同频率,同响度下,但是不同的乐器声音还是不同的感觉。主要取决于材料和结构。类似视觉上的亮度,色度。不同的发声体,发出的声音除了基频音外,还有许多不同频率的泛音伴随,正是这些泛音决定了其不同的音色,使人能分辨出不同的发声体。

2.2.4  立体声

立体声的概念

立体声是指,人感觉到声源分布在 3D 空间的声音,使听到的声音具有空间感、远近感及现场感。

产生立体声的条件:

√ 要有立体声的声源。

√ 要有立体声的声场。

√ 人耳的双耳效应。

立体声原理:

√ 路程差:声音传递到双耳的路程不同。

√ 时间差:由于路程差,使得声音到达双耳的时间不同。

√ 强弱差:由于时间差,先到的声音听感强,后到的声音听感弱。

√ 频率差:由声音的传播特性决定,近耳场听到的高频声音多、低频声音少;远耳场听到的高频音少、低频音多。

环绕立体声

在立体声声场中,除听者有身临其境的感觉之外,还必须具有使听者被声音包围的效果,使听者产生包围感和声音似乎离开听者扩散并再次反射回来的扩展感。

环绕立体声,至少需要 4 个声源,相对听者来讲分为:左前,右前(主声道),左后,右后(环绕声道)。

四声道资源并不多见,更常见的多声道音源有 5.1ch、7.1ch。

Image

7.1 声道立体环绕声家庭影院

2.2.5  鸡尾酒会效应

在嘈杂的声场中,人可以把自己的听力集中在某一个人的谈话中,而把其他人的声音都推到背景杂声中,此现象叫“鸡尾酒会效应”,其原理是人耳的选择功能。

人耳通过两耳拾取音源的距离差、时间差、频率差就可以辨别出不同方位的声音,以此调节听觉神经来选择不同方位的声源。利用这个原理,可以做 mic 阵列定向拾音。

3  电声器件

3.1  音频器件产业链

手机音频音频系统:

Image

Image

3.2  扬声器

扬声器是什么?扬声器俗称喇叭(英文名称:Loudspeakers )是一种把电信号转换成声音信号的电声器件。确切地说,扬声器的工作实际上是把一定范围内的音频电功率讯号通过换能方式转变为失真小并具有足够声压级的可听声音。

扬声器运用了电磁铁和永久磁铁 (如下图)。假设现在要播放 C 调 (频率为 256Hz,即每秒振动 256 次),唱机就会输出 256 Hz 的交流电,换句话说,在一秒钟内电流的方向会改变 256 次。每一次电流改变方向时,电磁铁上的线圈所产生的磁场方向也会随着改变。我们都知道,磁力是“同极相拒,异极相吸”的,线圈的磁极不停地改变,与永久磁铁一时相吸,一时相斥,产生了每秒钟 256 次的振动。线圈与一个薄膜相连,当薄膜与线圈一起振动时,便会推动了周围的空气。振动的空气,不就是声音吗?这就是扬声器的运作原理了。

Image

扬声器构造

扬声器则是传声器的逆效应,即麦克风是将声音信号转换为电信号,而扬声器是将电信号转换为声信号。实际上,麦克风可以当扬声器用,扬声器也可以当麦克风用,只是相应的性能指标可能不满足实际应用的要求。

Image

受话器

Image

喇叭单体

手机上的扬声器即为喇叭 BOX 和听筒(受话器),两者主要区别是喇叭 BOX 通常位于手机底部,侧重于外放音乐场景。听筒通常位于手机顶部,侧重于蜂窝通话场景。喇叭 BOX 结构即为喇叭单体加 BOX 音腔,通常具有独立的封闭后腔,这是为了避免声短路。而听筒通常不具有独立的封闭后腔,而是和手机结构整体组成后腔空间,后腔的封闭性不太容易保证。

扬声器与受话器的差异:

image.png

3.2.1  扬声器的分类

扬声器的种类很多,分类方式也五花八门,一般可根据其工作原理、振膜形状以及放声频率范围来分类。

按工作原理分类

按工作原理的不同,扬声器主要分为动圈式扬声器、动铁式扬声器、历次式扬声器,静电式扬声器和压电式扬声器等。

  • 动圈式扬声器

Image

动圈式扬声器是最常见的一种扬声器,其结构简单,成本较低。它采用电磁感应的原理,将电信号转换为机械振动,通电线圈绑着振膜,带动振膜拉扯空气,从而产生声音。动圈式扬声器,一般配有 3-5 块磁铁驱动。

动圈式扬声器综合性能/成本较好,广泛应用于手机、可穿戴、音响领域和低成本的听力设备中。

  • 动铁式扬声器

Image

相比于动圈式扬声器,它是由一个小的电磁铁和一个可以移动的衔铁组成。衔铁缠绕了线圈,连接着振膜。当线圈通电时,电磁铁的磁场发生变化,衔铁就被这个变化的磁场吸引或者排斥,带动振膜振动。振膜一振动,就会挤压周围的空气,产生了声波。

动铁式扬声器,高音表现较好,常应用于耳机高音单元、汽车鸣笛、警报器等领域。

  • 励磁式扬声器

Image

励磁式扬声器,相当于用通电螺线管来代替动圈式扬声器的磁铁,驱动音圈运动,拉扯空气,从而发出声音。

线圈替代永久磁铁,其磁场可控,可通过电路调整音色,价格较高,在发烧级音响设备中有应用。

  • 压电式扬声器

Image

压电式扬声器则利用压电材料的逆压电效应,在材料两端施加电压时,材料本体会收缩/膨胀,来带动振膜振动生成声音。它的结构简单,因此价格便宜。

压电式扬声器驱动电压较高,最少需要 10V 以上,驱动力较小,中高音尚可,低音较差,通常被应用于低成本的电子设备或高频率应用场景,例如耳机,屏幕发声。

  • 静电式扬声器

Image

又称为电容式扬声器,这种扬声器利用的是电容原理,即将导电振膜与固定电极按相反极性配置,形成一个电容。将声源电讯号加于此电容的两极,极间因电场强度变化产生吸引力,从而驱动振膜振动发声。

高音较好,单需要很高的极化电压(几十伏 ~ 几百伏),需要很大的面积才能有较好的低音表现,常用于平板音箱,大屏幕发声,部分耳机也有应用。

以上五种是较为常见的扬声器类型,当然还有其他特殊用途的扬声器,如骨传导式扬声器、平面扬声器等。不同类型的扬声器各有特点,但它们都能在一定程度上将电能转化为声音,为我们带来更好的听觉体验。

按放声频率分类

可分为低音扬声器、中音扬声器、高音扬声器、全频带扬声器等。

1.低音扬声器

主要播放低频讯号的扬声器称为低音扬声器,其低音性能很好。低音扬声器为使低频放音下限尽量向下延伸,因而扬声器的口径做得都比较大,一般有 200mm、300-380mm 等不同口径规格的低音扬声器,能随大的输入功率。为了提高纸盆振动幅度的容限值,常采用软而宽的支撑边,如像皮边、布边、绝缘边等。一般情况下,低音扬声器的口径越大,重放时的低频音质越好,所承受的输入功率越大。

2.中音扬声器

主要播放中频讯号的扬声器称为中音扬声器。中音扬声器可以实现低音扬声器和高音扬声器重放音乐时的频率衔接。由于中频占整个音域的主导范围,且人耳对中频的感觉较其它频段灵敏,因而中音扬声器的音质要求较高。有纸盆形、球顶形和号筒形等类型。作为中音扬声器,主要性能要求是声压频率特性曲线平担、失真小、指向性好等。

3.高音扬声器

主要播放高频讯号的扬声器称为高音扬声器。高音扬声器为使高频放音的上限频率通达到人耳听觉上限频率 20kHz,因而口径较小,振动膜较韧。和低、中音扬声器相比,高音扬声器的性能要求除和中音单元相同外,还要求其重放频段上限要高、输入容量要大。常用的高音扬声器有纸盆形、平板形、球顶形、带状电容形等多种形式。

4.全频带扬声器

全频带扬声器是指能够同时覆盖低音、中音和高音各频段的扬声器,可以播放整个音频范围内的电讯号。其理论频率范围要求是从几十 Hz 至 20kHz,但在实际上由于采用一只扬声器是很困难的,因而大多数都做成双纸盆扬声器或同轴扬声器。双纸盆扬声器是在扬声器的大口径中央加上一个小口径的纸盆,用来重放高频声音讯号,从而有利于频率特性响应上限值的提升。同轴式扬声器是采用两个不同口径的低音扬声器与高音扬声器安装在同一个中轴在线。

按振膜形状分类

扬声器主要有锥形、平板形、球顶形、带状形、薄片形等。

△ 锥形振膜扬声器

锥形振膜扬声器中应用最广的就是锥形纸盆扬声器,它的振膜成圆锥状,是电动式扬声器中最普通、应用最广的扬声器,尤其是作为低音扬声器应用得最多。

△ 平板扬声器

也是一种电动式扬声器,它的振膜是平面的,以整体振动直接向外辐射声波。它的平面振膜是一块圆形峰巢板,板中间是用铝箔制成的峰巢芯,两面蒙上玻璃纤维。

它的频率特性较为平坦,频频宽而且失真小,但额定功率较小。

△ 球顶形扬声器

球顶形扬声器是电动式扬声器的一种,其工作原理与纸盆扬声器相同。

球顶形扬声器的显著特点是瞬态响应好、失真小、指向性好,但效率低些,常作为扬声器系统的中、高音单元使用。

△ 号筒扬声器

号筒扬声器的工作原理与电动式纸盆扬声器相同。号筒扬声器的振膜多是球顶形的,也可以是其它形状。这种扬声器和其它扬声器的区别主要在于它的声辐射方式,纸盆扬声器和球顶扬声器等是由振膜直接鼓动周围的空气将声音辐射出去的,是直接辐射,而号筒扬声器是把振膜产生的声音通过号筒辐射到空间的,是间接辐射。

号筒扬声器最大的优点是效率高、谐波失真较小,而且方向性强,但其频带较窄,低频响应差。所以多作为扬声器系统中的中、高音单元使用。

3.2.2  扬声器模态

定义:模态是结构系统的固有振动特性,通常不仅包含频率,还包含振型。

Image

Image

Image

Image

喇叭的振动模态

物体任意时刻的振动状态可由物体各个模态以一定占比和相位差作为分量配比叠加而成。物体受迫振动的激励频率等于固有频率时就会引起共振,此时,振幅更大,振动发声的声压级(SPL)也会更大。

3.2.3  扬声器声短路

扬声器的振膜向前或向后运动时声波是反相的,导至声波互相抵消的现象。

Image

音箱声短路示意图

Image

某小型蓝牙音箱剖面图

为了避免声短路,就要求音箱的后腔做成封闭的。但后腔封闭后,喇叭推动后腔空气变得困难,整个声振系统顺性变差,导致 f_{0}变大,低频变差。为了解决后腔封闭后 f_{0}变大的问题,可以尽量将后腔做大,或者在后腔中加入吸引材料增加后腔等效体积。在手机中喇叭 box 同样面临相同的问题,而且更加严重。但解决思路是一致的。

避免声短路问题还有另外一个思路就是倒相孔,不过倒相孔的位置和结构需要进行精确计算,一般在音箱中会有应用,但在移动设备中很少见。

3.2.4  扬声器的性能指标

扬声器是扬声器系统(俗称喇叭)中的关键部位,扬声器的放声质量主要由扬声器的性能指针决定,进而决定了整套的放音指标。扬声器的性能指针主要有额定功率,额定阻抗、频率特性、谐波失真、灵敏度、指向性等。

扬声器的性能优劣主要通过下列指标来衡量:

额定功率(W)

扬声器的额定功率是指扬声器能长时间工作的输出功率,又称为不失真功率,它一般都标在扬声器后端的铭牌上。当扬声器工作于额定功率时,线圈不会产生过热或机械动过载等现象,发出的声音没有显示失真。额定功率是一种平均功率,而实际上扬声器工作在变功率状态,它随输入音频讯号强弱而变化,在弱音乐及声音讯号中,峰值脉冲讯号会超过额定功率很多倍,由于持续时间较短而不会损坏扬声器,但有可能出现失真。因此,为保证在峰值脉冲出现时仍能获得很好的音质,扬声器需留足够的功率余量。一般扬声器能随的最大功率是额定功率的 2-4 倍。

频率特性(Hz)

频率特性是衡量扬声器放音频频宽度的指标。高保真放音系统要求扬声器系统应能重放 20Hz-2000Hz 的人耳可听音域。由于用单只扬声器不易实现该音域,故目前高保真喇叭系统采用高、中、低三种扬声器来实现全频带重放覆盖。

高保真扬声器的频响曲线(FR)应尽量趋于平坦,否则会引入重放的频率失真。高保真放音系统要求扬声器在放音频率范围内频率特性不平坦度小于 10dB。

额定阻抗(Ω)

扬声器的额定阻抗是指扬声器在额定状态下,施加在扬声器输入端的电压与流过扬声器的电流的比值。现在,扬声器的额定阻抗一般有 2、4、8、16、32 欧等几种。         
扬声器额定阻抗是在输入 400Hz 讯号电压情况下测得的,而扬声器线圈的直流电阻 R 直?0.9R 额。

谐波失真(THD%)

扬声器的失真有很多种,常见的有谐波失真(多由扬声器磁场不均匀以及振动系统的畸变而引起,常在低频时产生)、互调失真(因两种不同频率的讯号同时加入扬声器,互相调制引起的音质劣化)和瞬态失真(因振动系统的惯性不能紧跟讯号的变化而变化,从而引起讯号失真)等。谐波失真是指重放时,增加了原讯号中没有的谐波成份。扬声器的谐波失真来源于磁体磁场不均匀、振动膜的特性、线圈位移等非线性失真。目前,较好的扬声器的谐波失真指标不大于 5%。

灵敏度(dB/W)

扬声器的灵敏度通常是指输入功率为 1W 的噪声电压时,在扬声器轴向正面 1m 处所测得的声压大小。灵敏度是衡量扬声器对音频讯号中的细节能否巨细无遗地重放的指标。灵敏度越高,则扬声器对音频讯号中所有细节均能作出的响应。作为 Hi-Fi 扬声器的灵敏度应大于 86dB/W。

指向性

扬声器对不同方向上的辐射,其声压频率特性是不同的,这种特性称为扬声器的指向性。它与扬声器的口径有关,口径大时指向性尖,口径小时指向性宽。指向性还与频率有关,一般而言,对 250Hz 以下的低频讯号,没有明显的指向性。对 1.5kHz 以下的高频讯号则有明显的指向性。

扬声器 TS 参数

手机上多应用的是动圈式 Box 扬声器,其关键指标可以分为两类:一类是物理指标,一类是电声指标。

物理指标,用来衡量电声转换的能力,目前行业通用的是 TS 参数,由 Thiele 和 Small 两位学者创立的一套参数。

image.png

扬声器 TS 参数

扬声器电声参数

扬声器电声指标,为人们所熟知,包括频响曲线(FR),谐波失真(THD/HOHD),共振频率(f0)

image.png

扬声器电声参数

3.2.5  扬声器的音腔设计

音腔是喇叭内部的一个空气室,分为前后音腔,用于增强和调节声音的输出。

增强声音:音腔通过共振效应,能够放大振动膜产生的声波,使声音更加洪亮。

调节音质:通过改变音腔的尺寸、形状和材料,可以调整声音的音色和音调,使音质更加自然和悦耳。

Image

扬声器结构

Image

扬声器的音腔

音腔可以在一定程度上调整 SPEAKER 的输出频响曲线,通过声腔参数的调整改变音乐声的高、低音 效果对于音乐声音质的优劣影响很大。同一个音源、同一个 SPEAKER 在不同声腔中播放效果的音色 可能相差较大,有些比较悦耳,有些则比较单调。合理的音腔设计可以使音乐声更加悦耳。音腔设计主要包括前/后音腔、出音孔、防尘网,密封性五个方面,每部分的作用和设计都有所不同:

前腔

前音腔位于振动膜前方,用于调节高频声音的输出。前音腔是让声音产生一个高频段的截止频率,并产生一个高频峰,修正高频噪声,好的前腔可提高中频,减小高频噪声,降低高频段延伸,提高声音转换效率。前音腔对低频段影响不大,主要影响音乐声的高频部分。随着前音腔容积的增大,高频波峰会往不断左移动,高频谐振点会越来越低。前音腔太大或太小对声音都会产生不利的影响。同时,由于出声孔面积对高频也有较大的影响,因此设计前音腔时,需考虑出声孔的面积,一般情况下,前音腔越大,则出声孔面积也应该越大。当前音腔过小时,还会造成一个问题,即出声孔的位置对高频的 影响程度急剧增加,可能会给外观设计造成一定的困难。结合设计的实际情况,一般希望前音腔的垫片压缩后的厚度在 0.3~0.5mm 之间。

Image

后腔

后音腔位于振动膜后方,主要用于增强低频声音的输出,防止声短路。扬声器的后腔一般带有均压孔(又称泄气孔,泄漏孔)的封闭腔体,没有声音辐射开口。在手机应用中,又分为封闭式 BOX,半封闭式 BOX,开放式 BOX。

封闭式 BOX,扬声器自带的后腔,并且是封闭的。半封闭式 BOX,指扬声器的后腔结构和整机耦合形成封闭后腔。开放式 BOX 是指扬声器没有后腔,后半部分完全裸露在机体内部,把整个手机内部,作为一个封闭的后腔,通过手机壳隔绝外部的声压。

后腔除了隔绝外在声压作用外,后腔的大小对扬声器的振动造成影响;与前腔所不同的是,后腔是封闭无开口的,因此扬声器在工作时,后腔内的空气不是“流动”状态,而是“被压缩”和“被拉升”状态,因此腔体内的空气会反作用于扬声器的振动系统,对扬声器的振动造成“阻碍”。

后音腔设计时,需要注意防止扬声器中低频的声短路,并使低频声音有利,让人感觉声音圆润。后音腔主要影响音乐声的低频部分,对高频部分影响则较小。音乐声的低频部分对音质影响很大,低频波峰越靠左,低音就越突出,主观上会觉得音乐声比较悦耳。

什么是声短路?

声短路是指 扬声器 的振膜(纸盆)向前或向后运动时,产生的声波是反相的,导致声波互相抵 消,从而使得听到的声音变得很轻或甚至听不到。音箱的一个重要作用是防止声短路。音箱内部的结构设计可以阻挡后声波直接绕射到前方,从而避免与前声波叠加抵消。

一般情况下,随着后音腔容积不断增大,其频响曲线的低频波峰会不断向左移动,使低频特性能够得到改善。但是两者之间关系是非线性的,当后音腔容积大于一定阈值时,它对低频的改善程度会急剧下降, 如图所示:

Image

后腔容积频率特性

Image

后腔容积对谐振失真的影响(Hz)

从图中可以看出,容积越大,谐振差异越小。

image.png

后音腔的设计非常重要,直接影响手机音质的好坏和大小。后音腔的形状变化对频响曲线影响不大。但如果后音腔中某一部分又扁、又细、又长,那么该部分 可能会在某个频率段产生驻波,使音质急剧变差,因此,在音腔设计中,必须避免出现这种情况。

后音腔设计时,必须保证后出声孔出气畅通,即后出声孔距离最近的挡板距离应大于后出声孔径的 0.8 倍,后腔的容积尽可能大。

同时,后音腔是否有效的密闭对声音的低频部分影响很大。当后音腔出现泄漏时,低频会出现衰减,对音质造成损害,它的影响程度与泄漏面积、位置都有一定的关系。这主要指箱体内部所构成的音腔或者泄漏孔对 Speaker 的性能或者声音产生的影响,如下图示所示:声孔、前腔、内腔、泄漏孔等等都会对整体音质表现产生影响。

Image

泄漏面积对谐振失真的影响

从图中可以看出,泄漏面积越大,谐振差异越大;当后腔容积越大,抗失真能力越强。

声孔

声孔就是出声孔,声孔可以有不同的开口形状,例如圆形、椭圆、新月形。

Image

声孔的位置

出声孔的面积(总的投影有效面积)对声音影响很大,而且开孔的位置、分布是否均匀对声音也有一定的影响,其程度与前音腔容积有很大关系。一般情况下,前音腔越大,开孔的位置、分布对声音的影响程度就越小 。出声孔的面积对频响曲线的各个频段都有影响,在不同 条件下,对不同频段的影响程度各不相同。当出声孔面积小于一定的阈值时,整个频响曲线的 SPL 值会急剧下降,即音乐声的声强损失很大,这在设计中是必须禁止的。当出声孔面积大于一 定阈值时,随着面积增大,高频波峰、低频波峰都会向右移动,但高频变化的程度远比低频大,低频变化很小,即出声孔面积的变化主要影响频响曲线的高频性能,对低频性能影响不大。

Image

声孔面积对性能的影响

出声孔面积影响高频截止频率,中低频的灵敏度,面积一般为喇叭振动面积的 5%~15%,过大会导 致高频噪音过多,过小可能导致声音变小。出声孔尽量开要居中开,这样高频较多,声音做不大,并且伴随高频噪声。孔距不要少于 1mm。出声孔直径最好在 0.8~1.5mm,推荐 1mm.

声孔音腔的性能影响

Image

出音孔、声腔尺寸对 Speaker 性能的影响

Image

出音孔、声腔尺寸对 Receiver 性能的影响

密封性

又称为气密性,密封性良好的 Box 箱体可以减少声音的泄漏和失真,从而提供更为纯净和准确的音质。然而,过度的密封也可能导致箱内空气压力过高,影响扬声器的正常工作。设计中音喇叭箱体时,我们需要权衡密封性和音质之间的关系。

首先,密封性对于中音喇叭的音质有着显著的影响。声音在密封的箱体内传播时,由于空气分子的碰撞和摩擦,会产生一定的阻尼效应,这有助于减少声音的失真。同时,密封的箱体还能有效防止外部噪音的干扰,提高信噪比,从而改善听感。

然而,过度的密封也可能带来问题。当箱体内的空气压力过高时,会增加扬声器的负担,导致失真、功率损失甚至扬声器损坏。因此,设计师需要在保证密封性的同时,确保箱体具有一定的透气性和散热性能。

防尘网

相比于其他几个因素,防尘网对声音的影响程度较小,它主要是影响频响曲线的低频峰值和高频峰 值,其中对低频峰值影响较大。防尘网对声音的影响程度主要取决于防尘网的声阻值和低频、高频峰值的大小。一般情况下,峰值 越大,受到防尘网衰减的程度也越大。防尘网主要有两个作用,防止灰尘和削弱低频峰值,以保护 SPEAKER。目前,我们常用的防尘网一 般在 250#~ 350#之间,它们的声阻值都比较小,基本上在 10Ω 以下,对声音的影响很小,所以一 般采用 SPEAKER 厂家提供的防尘网差异不会非常大。因此从防尘和声阻两个方面综合考虑,建议采 用 300#(300 目)左右的防尘网。

我们以往采用的不织布防尘网存在一个问题,由于不织布的不同区域密度不一样,因此不同区域声 阻也不一样,可能会造成同一批防尘网的声阻一致性较差。但不织布的成本比防尘网低很多,因此 建议设计中综合考虑性能和成本,在高档机型中,尽可能不要采用不织布作为防尘网。

泄气孔

泄气孔的重要作用是保持整机内外的气压平衡,确保上下扬声器后腔与外界能够顺畅地进行气体交换。泄气孔通过让音箱内部的气压与外部空气进行交换,从而保持气压平衡。其大小和位置对音质有重要影响。泄气孔过大或过小都会影响气压平衡,进而影响音质。因此,泄气孔的设计需要根据音箱的尺寸和功率进行合理选择,通常位于 BOX 的底部或侧面,以保持气压稳定 ‌。泄气孔通常靠着后腔,但是与后腔并不连通,仅仅是为了平衡 BOX 内外气压,以及散热。

3.2.6  手机 BOX 音腔扬声器

手机追求轻薄,空间寸土寸金,没有空间摆放大音腔扬生器,扬声器需要尽可能减少体积,腾出空间,保障电池的容量,同时尺寸也尽可能轻薄,方便整机结构布局。基于手机场景特殊的需求,扬声器发展到了 BOX 扬声器阶段。

简单来说,一体化 BOX 音腔就是将扬声器、音腔和天线三合一,最大限度减少了整个单元的体积。同时,该单元还普遍采用“分体式”的振膜设计,比如悬边采用双层高韧性的 PEI 材料,而球顶采用单层高韧性 PEN 参与扬声器的振动,从而可以在极小的空间里就能带来较大的音量和一定的低音效果。

如前所述,当前手机市场中应用的,最多的还是动圈式 Box 扬声器。

超线性扬声器

为了改善音质、提高音量,扬声器单元也在不断的升级之中。高端智能手机又开始主打“超线性扬声器”,普通扬声器只有一组线圈用于驱动振膜,当振动幅度过大时,由于振膜受力不均衡就会产生额外的谐振影响音量和音质。而超线性扬声器,则通过两个线圈共同驱动振膜来使振膜受力均衡,技术含量更高。

Image

iphone 底部超线性扬声器 Box

在欣赏电影和玩游戏的过程中,音量大小和声音饱满只是扬声器的最基础要求,能否带来环绕的立体声音效,在“吃鸡”类游戏中能否准确根据枪声来源判断敌人的方位,这才是更多中高端手机所追求的方向。此时,就轮到“立体声扬声器”登场了。

立体声双扬声器

所谓“立体声扬声器”,就是配备了两组扬声器,而且还需要分别位于机身顶部和底部,才能营造最完美的立体声环境。为了实现这个目标,很多手机会选择扬声器&听筒二合一的单元,让声音从听筒开孔传出。

听筒双扬声器是指手机的听筒旁边设置了一个扬声器,它的作用是扩大手机的声音输出范围,对于使用者而言能获得更好的听觉效果,但并不能带来左右分离的感觉。

Image

iphone 顶部听筒扬声器二合一 Box

听筒双扬声器的构造原理和工作方式与对称式双扬声器有所不同。听筒双扬声器只是在手机的听筒左右两侧分别设置了一个扬声器,直接播放声音,它是通过天线之间的隙缝把声音传递到外界。由于强迫两个扬声器同时在一个较小空间发声,所以音效并不比对称式双扬声器更好,但是比起单扬声器效果要好很多。

非对称双扬声器,除了听筒二合一双扬声器外,还有使用非对称扬声器的布局,例如型小米 15,分别为瑞声科技 1014B 和瑞声科技 1115D‌‌ 组成双扬声器,效果上,比听筒二合一扬声器要好,频带更宽广。

还有一种布局方式是高低频双扬/四扬声器,常用于平板电脑,它们的作用是在不同的频段上播放不同的音频,从而实现更加丰富和立体的声场效果。顶部的扬声器通常负责播放高频和中高频的音频,而底部的扬声器则负责播放低频的音频。这种设计理念的出发点是为了创造更加真实、立体、动态的音乐效果,顶部的高音喇叭呈现出更加细腻的音质,底部的低音喇叭则负责强劲的低音效果,让用户获得更好的听觉体验。

立体声扬声器说起来容易,但在智能手机进入全面屏时代后,在设计上的难度又上升到了一个台阶上。比如顶部扬声器设计,需要重新安排内部组件的位置,除了前置摄像头、传感器、3D 结构光(未来趋势)、红外相机以外还要为扬声器腾出空间,这里就涉及到堆叠、ID 设计上的功底了。

对称双扬声器

对称式双扬声器是指手机上同时设置了顶部和底部两个完全相同的扬声器,对称的分布在手机的两端,这样可以产生最均衡的声场,带来最好的立体声体验。

Image

例如:OPPO Find N 搭载了对称双扬声器,iqoo13 搭配的两颗瑞声科技 1115E 扬声器。

在音质表现上,对称式双扬声器通常比单扬声器的效果要好。由于左右两个喇叭同时发声,所以声场更加宽广、立体,音场更加开阔。因此,在听音乐或者看视频时,对称式双扬声器能够带来更加逼真的效果,对称式双扬声器能够带来更加细腻、立体、动听的音效体验。

非对称双扬声器,天生声场就是不均衡的,依赖算法调音,例如通过 PA 算法、音效算法,压低底部性能较好的扬声器参数,与顶部弱扬声器参数调成接近,特别是指向性强的中频段,尽可能使声场均衡。但这种方式会损失底部扬声器的性能,因此对于游戏场景,例如和平精英,需要听声辨位,设计上尽可能采用对称双扬声器。

BOX 扬声器尺寸

Box 扬声器的命名,通常就是其物理尺寸,例如 1216,代表是尺寸是 12×16mm。扬声器越大,音频表现越好,但是占用挤占空间越大,ID 设计与堆叠越难。

常见的手机扬声器 Box 尺寸有:

image.png

3.3  麦克风

与扬声器相反,录音用到麦克风 Mic,在专业术语上,叫传声器。

3.3.1  电容传声器

它由接收声波的振膜作为力学振动系统,振膜与背极形成静态电容 C_{0},这个电容串接到有直流电源 E_{0}和负载电阻 R_{0}的电路中,当振膜受到声波作力 F_{F}作用时就产生位移,从而使振膜与背极间已形成的静态电容发生变化,这一电容量的变化导致负载电阻中电流相应的变化,由此就在此电阻上产生与声波频率相应的交变电压输出。输出电压与振膜的位移成正比。

特性:灵敏度高,常用于高质量的录音。

应用:消费电子、录音室。

手机上常用的驻极体电容麦克风(ECM)和微机电麦克风(MEMS)都属于压强式电容麦克风。其中,MEMS 中含有 ADC 和 DSP 能力,可以直接输出数字信号,甚至可以集成语音唤醒能力,因此,也称数字麦克风、智能麦克风或硅麦。

ImageImage

image.png

压强式电容传声器原理图

3.3.2  动圈传声器

传声器的振动系统由音膜和音圈组成。音膜的边缘压成折环状起着弹簧的作用。音圈放在磁极间的缝隙中,当有一由声波产生的力 F_{F}作用在音膜上时,音膜连同音圈产生振动,音圈在磁场中切割磁力线,从而使音圈的导线感应出电压。输出电压与振动系统的速度成正比。

特性:动圈式麦克风因含有磁铁和线圈,不够轻便、灵敏度较低、高低频响应表现较差;优点是声音较柔润,适合用来收录人声。

应用:KTV 场所。

Image

压强式动圈传声器原理图

3.3.3 MEMS 麦克风

MEMS 的英文全称是:Micro-Electro-Mechanical-System,翻译为微电机系统;是一种半导体技术,常用于微型加速度计,气压传感器,陀螺仪。

与传统的 ECM 麦克风相比,MEMS 麦克风就有以下优势:

◆ 体积小、重量轻

◆ 便于 SMT 安装

◆ 耐高温,稳定性好,可过回流焊,性能维持不变

◆ 灵活的设计应用

◆ 兼容数字化发展

◆ 自动化程度高

◆ 适合大批量生产

◆ 性能越来越高:高信噪比,低功耗,高灵敏度

◆ 是 SMD 元件,使客户生产过程简化,生产费用降低

◆MEMS 的制作工艺具有很好的重复性和一致性,保证每个 Mic 有相同的优先表现

MEMS 麦克风的工作原理和结构

MEMS 麦克风是由 MEMS 微电容传感器、微集成转换电路(放大器)、声腔及 RF 抗噪电路组成。MEMS 微电容极头部分包含接收声音的硅振膜和硅背极,硅振膜可直接将接收到的声波信号经 MEMS 微电容传感器传输给微集成电路,微集成电路可将高阻的音频电信号转换并放大成低阻的音频电信号,同时经 RF 抗噪电路滤波,输出与手机前置电路相匹配的电信号。完成“声-电”转换。

Image

MEMS 麦克风工作原理

image.png

Image

MEMS 麦克风的结构

MEMS 麦克风的性能指标

■ 信噪比(SNR),是麦克风的灵敏度与背景噪声的差值,用 dB 表示,现有 MEMS 麦克风的信噪比是在 56dB ~ 66dB 之间。信噪比越高,麦克风的性能越好。

■ 灵敏度,麦克风的灵敏度是用于测量麦克风对已知声压级的响应能力。灵敏度通常在 94dB 声压级(1 Pa)条件下,使用 1kHz 频率进行测量的结果。AMIC 模拟麦克风灵敏度表示为相对于 1V RMS 信号的分贝数(dBV),而 DMIC 数字麦克风的灵敏度表示为相对于麦克风满量程输出的分贝数(dB FS)

■ 背景噪声,在安静的环境下,麦克风输出中的噪声量。声学传感器和接口 ASIC 都会向麦克风输出信号注入噪声,传感器噪声是空气分子随机布朗运动产生的,而 ASIC 的噪声是前置放大器,数字麦克风 ASIC 的噪声源是 Δ-Σ 调制器,应在全频带内测量背景噪声。

■ 失真(THD),失真是测量麦克风拾音精准度的指标,失真的条件通常是 94dB ~ 100 dB SPL 范围内,表示在正常声压级条件下音频信号的质量。

■ 声学过载点(AOP),在麦克风声压级接近声学过载点之前,失真通常不会随着声压级升高而大幅增加。但是,当达到过载点时,失真开始快速升高。麦克风的过载点通常是指失真达到 10%时的声压级。更高的过载点,意味着能支持更高的声压级,扬声器的性能越好。

■ 频响,MEMS 麦克风的频响是在不同的频率时灵敏度的变化。麦克风的频响通常在 1kHz 时设置为 0 dB,对不同频率下的灵敏度进行归一化处理。大多数 MEMS 麦克风的灵敏度都低于 100Hz,在出现 Helmholtz 谐振后开始上升,达到大约 4kHz 至 6kHz 之间。这就是许多 MEMS 麦克风将频响指定在 100Hz 至 10kHz 之间的原因。不过也有高性能的 MEMS 麦克风在 20Hz 至 20kHz 全频带内拥有较平坦的频响曲线。

■ 电源抑制比(PSR),麦克风电源抑制比是评价麦克风防止噪声从电源输入端进入输出端的能力指标。电源抑制比通常是在音频带内使用仿真 GSM 蜂窝无线电产生的 TDMA 噪声的 217Hz 方波或扫描正弦波来指定。

■ 更小的封装,3mm×4mm×1mm 和 2.95mm×3.76mm×1mm 是常见的 MEMS 麦克风封装尺寸。更新的 MEMS 麦克风为 2.5mm×3.35mm×0.98mm 和 2.65mm×3.5mm×0.98mm。

Image

3.3.4  多 MIC 应用

类似双扬声器,手机上通常集成多个 Mic,分别有不同的用处。

■ 降噪 mic,通常选择背 mic 作为降噪麦克,拾取周围环境噪声,作为主 Mic 的参考信号,从主 MIC 的输入信号中减去环境噪声成分,从而提高音频信号的纯净度。

■ 顶底 Mic 相互备份,主要是防止游戏连麦场景,双手堵麦的问题,当检测到底 mic 被堵孔,那么就切换到顶麦克。如果检测到顶麦克被堵,就切换到底 mic 上。

■ 追焦 MIC,在后置摄像头录制视频的时候,通常使用背 MIC 作为追焦 MIC,随着 Camera 的焦距,拉近或者拉远声音,起到声音追焦的效果。

■ 声波聚束,通常需要 2 个以上的麦克风阵列,执行声波聚束功能,处理麦克风阵列的输出信号,提高沿某一个方向的灵敏度,同时抑制其他方向的声音。波束聚集利用不同方向声音的相位差,将麦克风的灵敏度聚焦于某一个方向。声波聚束,用于声源定位,远场定向拾音。

3.4  功率放大器

什么是功放?功率放大器(PowerAmplifier,简称 PA)简称功放,俗称“扩音机”,是音响系统中最基本的设备,它的任务是把来自信号源的微弱电信号进行放大,然后产生足够的电流,以驱动扬声器发出声音。根据功放管的导通方式不同,可分为 A 类(也称 A 类)、B 类(也称 B 类)、A 类和 B 类(也称 AB 类)以及丁类(也称 D 类)。

Image

汇顶 Smart PA

TFA9873 是一款高效升压 D 类音频放大器,支持扬声器保护和增强算法,可在供电电压为 4.0 V 时向 6 Ω 扬声器提供平均 4.5W 的输出功率。该音频放大器内部集成自适应 DC-DC 转换器,可提高供电电压,大幅提升音质。

3.4.1  汇顶 TFA9873 Smart PA 特性
  • 高输出功率

o 为 6 Ω 负载提供 4.5W(均值)功率(4.0 V 供电电压,THD = 1 %)

o 为 8 Ω 负载提供 3.5 W(均值)功率(4.0 V 供电电压,THD = 1 %)

  • 支持对听筒(16 Ω 或 32 Ω)和免提(4 Ω 至 8 Ω)扬声器进行配置
  • 高效、低功耗和低噪声扬声器驱动
  • 在固定升压模式和自适应升压模式之间切换时,自适应 DC-DC 转换器可平稳提升供电电压,防止大型电池电压尖峰并限制静态功耗
  • 宽电源电压范围(2.7 V- 5.5 V 可全面工作)
  • 超低噪声输出电压:9 µV
  • 低电池功耗:低至 120 mA(平均音乐播放功率 Po = 380 mW)
  • I2C 总线控制接口(400 kHz)
  • 通过 TDM 总线对扬声器电流和电压进行监控,实现主机回声消除(AEC)
  • 支持 16 kHz / 32 kHz / 44.1 kHz / 48 kHz 采样频率
  • 支持超声波(采样频率:96 kHz,音频接口:TDM)
  • 通过专用中断引脚实现编程中断控制
  • 低射频干扰
  • 热折返和过温保护
3.4.2  汇顶 TFA9873 Smart PA 框图

Image

3.5  音频 Codec 芯片

音频 Codec 芯片的主要作用包括数字信号的编码、解码、模拟信号的转换以及音频信号的处理。音频 Codec 芯片在数字信号处理中起到关键作用,它能够将数字音频信号进行编码,压缩数据量以便于存储和传输。此外,Codec 芯片还能将压缩的数字信号解码回原始音频信号,确保音频质量不受损失。

Codec 芯片还负责将数字信号转换为模拟信号,以便通过扬声器等设备播放出来。这涉及到数字到模拟转换(DAC)的过程。同样,麦克风等输入设备采集的模拟信号也需要通过 Codec 芯片转换为数字信号,以便进行进一步处理和存储,这涉及到模拟到数字转换(ADC)的过程 ‌

Codec 芯片不仅进行基本的信号转换,还具备音频处理功能。它可以对音频信号进行音量控制、功率放大、均衡器(EQ)控制等处理,以改善音质和用户体验 ‌。此外,Codec 芯片还负责控制音频通路,确保在不同应用场景下(如播放音乐、接听电话等)音频信号的流通顺畅 ‌。

下图为以高通 WCD9395 Codec 芯片为例,介绍音频 Codec 芯片的功能:

Image

WCD9395 框图

Image

WCD9395 功能接口

4  声音效果测评

4.1 怎样判断音质好坏?

音质是声音品质的笼统概念,包括声音的响度(幅度与强度),音调和音色。衡量音质好坏包括:

  • 某一频率或者频段的音高,是否具备一定的强度
  • 要求的频率范围内,同一音量下,各频点幅度是否均匀,均衡,饱满,频率响应曲线是否平直
  • 声音的音准是否精确,是否呈现了音源频率成分的本来面目。
  • 频率的畸变和相移符合要求。
  • 声音的泛音适中,谐波丰富,听起来音色就优美动听。

声音的效果指标,分为客观测评,和主观测评。

国际电联(ITU-R BS.2399-0)详细定义了主观音质属性标准,包含音色、力度、空间感、音量和音损五个大维度。

4.2 主观测评

人耳的听感受两部分影响:

u 人耳的结构差异导致接收到的声音不同

u 对声音的专业认知差异,如从小学习乐器的人能准确听出音色、音高和音准

Image

因此,主观指标存在一定的随机性,同一声音,不同的人对不同的声音敏感度也不太一样。盲听打分,也就是 T-MOS 指标,存在着可靠性不足的缺点。

4.2.1  扬声器主观指标

Image

4.2.2  耳机主观指标

Image

4.2.3 语音的主观测评

√ 平均主观意见分(Mean Opinion Score, MOS)

√ 梅尔倒谱失真度(Cepstral Distance, CD)

√ 语音质量感知评价(Perceptual Evaluation of Speech Quality, PESQ)

√ 短时客观可懂度(Short-Time Objective Intelligibility, STOI)

4.3 客观指标

音频客观指标常见的有,响度,频响,失真度,回声,THD+N,SNR 等。

4.3.1  频响曲线

频响曲线是描述音频器件与算法,对不同频率信号响应的图形表示,通过频响曲线可以了解音频器件与算法在不同频率下的表现。‌ 频响曲线通常以频率为横轴,响应强度(通常以分贝为单位)为纵轴,绘制成曲线图。理想的频响曲线是一条平直的线,表示设备对各频率的响应均匀。然而,实际的频响曲线可能会有起伏,这些起伏反映了设备在不同频率下的增益或衰减情况。

‌   在音频器件与算法的选型中,频响曲线的平直度是一个重要指标,平直的频响曲线意味着音频器件与算法对各频率的响应均匀,能够提供均衡的声音表现。如果频响曲线在某些频率段有突出的峰值或凹陷,可能会影响声音的均衡性和听觉体验。例如,如果频响曲线在低音部分有突出,可能会导致低音过重;而在高音部分有凹陷,则可能导致高音不足。

‌   通过频响曲线可以评估音频器件与算法的效果和性能。‌ 理想的频响曲线应该是平坦的,表示器件与算法对各频率的响应均匀。如果频响曲线在某些频率段有较大的起伏,可能会影响声音的清晰度和平衡性。因此,了解如何读取和分析频响曲线对于评估音频器件与算法的性能非常重要。

Image

4.3.2THD+N

Total Harmonic Distortion + Noise 总谐波失真加噪声,它是音频功率放大器的一个主要性能指标,也是音频功率放大器的额定输出功率的一个条件。反应声音放大后的失真程度,用失真仪能测出。

理想的音频功率放大器,若不考虑该功率放大器的增益大小,输入一定频率的正弦波信号,其输出也应该是没有失真(波形没有变形)、没有噪声的正弦波信号。但真实的音频功率放大器的输出音频信号总会有一点失真,并且叠加了噪声(在正弦波上叠加了高频杂波)。这种失真是较小的,从波形图中也难看出来,只有用失真仪才能测出。波形的失真是由于在正弦波上加了多种高次谐波造成的(如 3 次谐波、5 次谐波等)所以称为总谐波失真。理想的音频功率放大器没有谐波失真及噪声,所以 THD+N=0%。实际的音频功率放大器有各种谐波造成的失真及由器件内或外部造成的噪声,它有一定的 THD+N 的值。这个值一般在 0.0001% ~ 10%之间。

Image

其他几个指标例如 SNR 都比较常见,这里不再赘述。

5  参考文献

[1]《声学基础》杜功焕第三版

[2]《电声技术基础》管善群

[3]《理论声学》张海澜

[4]《扬声器系统的理论与应用》沈勇

[5]《电子音响技术基本知识》王征

[6]《产品结构设计.音腔设计知识介绍》一加一学院.微信公众号:ivcreo

END 

作者:Transon
来源:OPPO内核工匠

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
2896
内容数
304
分享一些在嵌入式应用开发方面的浅见,广交朋友
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息