深圳湾 · 2020年07月07日

超越 AirPods Pro 和 FreeBuds 3 的 AI 骨传导通话降噪来了

超越 AirPods Pro 和 FreeBuds 3 的 AI 骨传导通话降噪来了,横比结果超出预期.jpg
最近上市的漫步者的 DreamPods TWS 打出了一项与众不同的卖点功能——AI 骨传导通话降噪,这引发了我们的兴趣。

通话是 TWS 耳机最重要的功能之一。但当你身处在人声嘈杂的咖啡厅、噪音分贝很高的地铁和公交车站、或是快速行进风中,因为你佩戴的 TWS 耳机通话降噪做的不好,对方常常听不清楚你讲什么,这个体验是非常糟糕的。

深圳湾曾经在一年前做过一期通话降噪的主流应用案例,其中,苹果 AirPods 的双麦克风加骨振动传感器的「语音加速」方案,以及头戴式 Bose 700 的 8 麦克风「双向降噪」技术,令人印象深刻。

△ AirPods

AirPods 的后来者们多基于单双麦克风与算法结合的方式,虽然多少实现了通话中的降噪,但实际上很难形成性能突破,在较为安静的办公环境表现尚佳,但在地铁、马路、机场、咖啡厅等日常嘈杂的环境中,接听方的通话体验常常不尽人意。

漫步者的 DreamPods 这款 TWS 耳机外形与 AirPods 的一代差不多,半开放式的挂耳设计,耳机柄也保留了 AirPods 的长度。整体上貌不惊人,连接、佩戴、续航、音质等也基本符合人们对于一款 AirPods 替代品的期待。但它主打的高清通话体验,却令我们发出了「WOW」的感叹!

△ DreamPods

当我佩戴 DreamPods 站在公交车站时,我打电话给我的同事:

通话清晰吗?回答:清晰。
公交车进站了,你听得到吗?回答:听不到,也听不出你在车站。
我身旁走过了一对母子,熊孩子在闹着吃冰淇淋,你听到了吗?回答:听不到。
我这会儿已经走进 KFC 了,我旁边一桌的人正在聊端午节的旅游经历,时不时的还发出笑声,你听得到吗?回答:听不到,完全感受不到你旁边有人说话。
我已经走到室外了,这时候我迎着风,风很大哦,呼呼的,你听得到风声吗?回答:有一些,能感觉到和刚刚你通话的环境不同,但听你讲话是清晰的。

这就是一款 699 元的「类 AirPods」的 TWS 耳机的表现,通话质量远远超出了以往我使用的其他国产耳机。而它也是首款应用大象声科 Vocplus AI 骨传通话降噪技术的 TWS 耳机。

骨传导通话降噪,苹果怎么做?

骨传导通话降噪技术是苹果早在 2013 年就为 AirPods 准备的专利技术,专利号 US9363596B2,直到 2016 年 AirPods 才上市。

专利中描述了用振动传感器结合麦克风做上行降噪的方案,其中,振动传感器主要搜集颅骨因振动而产生的声音信号(颅骨传音),而麦克风则主要负责采集空气中的声音。

采集来的声音信号经由苹果的算法处理,比如,在通话场景中,对背景噪声进行削弱,对佩戴者的语音进行增强,从而输出更清晰的通话声音,让接听电话的对方,有更好的通话体验。

△ AirPods 骨传导方案 | 图源:意法半导体

这一技术直接为 AirPods 带来了远超于其他跟随者的出色的通话降噪效果。

同时,因为专利保护,为苹果提供微型骨振动传感器的意法半导体,在直到 2019 年的三年时间里,没有向其他企业开放这一传感器技术。

骨传导通话降噪,华为怎么做?

华为曾经试图避开苹果专利,很早就开始研发「骨声纹识别」技术——Bone Voice ID,并将其应用在 2018 年 12 月发布的 FreeBuds 2 Pro 的「声纹支付」上

简单来说,华为将这一新颖的用户身份识别检测方案,用于识别耳机佩戴者说话时的骨声纹信息,再将 ID 信息传递给手机,通过 AI 自动解锁手机。与此同时,启动手机上的语音助手,再接入相关的语音服务,比如打开微信支付或支付宝支付,最终实现通过耳机进行「骨声纹支付」的功能。

△ 华为 FreeBuds 2 Pro 骨声纹 ID 官宣

这个华为在宣传中标榜的「黑科技」或许因为太早不够成熟,或许因为太过于复杂,实际我们在体验中,因为系统等各种限制,未能实现如海报所示的效果。华为官方商城的用户留言也显示,这个功能或者没有上线或者体验非常糟糕。

后来,华为「再接再厉」,在其去年发布的 FreeBuds 3 上再次采用了骨传导的技术——主要用于通话降噪。

华为的方案与苹果有什么不同?

但华为的骨传导通话降噪技术又与苹果有所不同。

据《雪球》引用宝藏左博士的信息,华为 FreeBuds 2 Pro 和 FreeBuds 3 采用的是同一颗骨振动传感器,来自丹麦的 Sonion 公司的 VPU(Voice Process Unit)传感器,型号为 VPU14AA01。

华为所采用的 VPU14AA01 和苹果所采用的 ST LIS25BA 最大的不同是:

VPU14AA01 是单轴振动传感器,输出的是模拟信号,而 LIS25BA 是三轴振动传感器,输出的是数字信号。

作者在文章中猜测华为选择 Sonion VPU 的原因在于功耗低(单轴振动),可以支持 Freebuds 3 能够有与 AirPods 相当的续航时间。

但实际上,更大的不同在于前端信号处理。

△ 华为在 IFA 2019 上演示骨传导通话降噪 | 图源:深圳湾

当我们问起,苹果和华为的方案有何不同?大象声科的技术专家告诉深圳湾:

AirPods 和 FreeBuds 3 都是利用传感器信号作为人声检测的标志,主要用来检测声带振动。其中,AirPods 获得的信号是数字信号,而 FreeBuds 3 获得是模拟信号。

更进一步而言,无论是 AirPods 还是 FreeBuds 3,都依赖于传统的双麦克风进行波束形成(beamforming),麦克风数量和阵列设计都会影响信号采集的精度。

其他厂商怎么做?

为了避开苹果的专利壁垒,一些厂商开始使用额外增加一颗麦克风,在波束形成的基础上,通过增加对耳机内侧声音的收集,来弥补外部麦克风被噪音占用后、声音信号不足的情况。

通过增加传感器数量来丰富声音采集的信息量虽然有效,但是片面的,更重要的是需要对数字信号进行分析、调整、并向接听电话的一方输出更清晰的声音。

专家如上的意见也启发了我们,信号处理是一门学问,就像我们写文章,单纯搜集资料是其一,消化、整理、输出,则更考验功力。

而再看这么多年 AirPods 在通话降噪上的体验一直领先,很大程度上在于苹果在软件、硬件的集成优势。

如今,有机会打破苹果一家独大的局面了。

大象声科 AI 骨传导通话降噪方案,如何突破传统?

漫步者 DreamPods 是首款应用大象声科 Vocplus AI 骨传导通话降噪技术方案的 TWS 耳机。

大象声科 Vocplus AI 骨传降噪技术是基于深度神经网络(DNN)的语音提取技术,能够高效融合麦克风信号和骨振动信号,利用 DNN 强大的建模能力,实时分离人声和噪声,同时有效隔绝周围人的声音。

通过与大象声科技术团队的交谈,我们了解到了用于 DreamPods 的 AI 骨传通话降噪技术,在以下几个层面实现了对传统通话降噪技术的突破。

1、对于复杂噪音信号的建模能力

传统信号处理本质上基于线性滤波的思想,对语音和噪声信号建模。但传统信号处理模型假设过于简单,无法针对咖啡馆等环境所产生复杂噪音信号,进行有效的刻画。

而大象声科采用的是深度学习技术,能够对更为复杂的信号进行有效刻画。

2、更强的 AI 自适应能力

同时,传统信号处理采用的是人工设计的算法对模型参数进行估计,很难自动适应各种场景,导致后期调参工作量十分巨大。

在同一颗支持通话降噪的芯片上设计的产品,因为团队在算法调教上的思路不同,或是打磨的时间长短不一,导致在不同的产品上、不同的环境中,通话效果差别很大。

大象声科的 AI 语音降噪技术,是一种基于数据驱动的方法,模型参数通过使用海量的训练样本自动估计,使算法有更强的适应能力。

3、对佩戴者语音通话的人声识别能力

用户使用 TWS 耳机的场景复杂多变,对降噪算法的挑战更大。

尤其是在某些极端的场景中(如嘈杂的地铁车站、拥挤的地铁车厢),耳机麦克风收到的语音信号几乎完全被噪音遮盖,佩戴者在通话时的人声很难被准确识别,同时,车厢里其他干扰的人声也不能被有效隔离。

这时候,一颗骨传导传感器(即 AirPods 中使用的语音加速传感器)就可以准确接收佩戴者说话时的骨振动信号,不受外部噪音的干扰。

大象声科是国内首家与意法半导体合作推出骨传导通话降噪的算法厂商,软硬结合,独立性更强。

4、通过算法弥补骨传导传感器或麦克风信号采集的不足

单纯使用骨传导传感器,在不加任何算法的情况下几乎可以完全隔绝外部噪音。但其最大的问题是,骨传导传感器采集的信号频率宽度有限,在实际耳机产品上,上限频率只能到达 800Hz 左右,无法满足通话需求。

换句话说,普通麦克风频宽够,但有噪声,而骨传导传感器无噪声,但频宽有限。

大象声科骨传导通话方案同时使用骨传导传感器和单颗麦克风,利用 AI 技术将二者采集的信号进行有机的融合。利用骨传导信号提供的重要声学特征(如 VAD 和基音信息)对麦克风信号进行降噪和融合,达到比直接对麦克风信号进行降噪更好的效果。

并且,整个这一过程由 AI 自动完成,不需要进行人工提取特征参数。

5、单颗麦克风+骨传导组合

如前文所述,AirPods 采用骨传导传感器 + 2 颗麦克风的方案,利用骨传导信号帮助估计波束成形的参数,提升降噪效果。显然,受限于麦克风的数量,波束成形的降噪能力依然有限。

而大象声科的 AI 骨传导通话降噪方案,本质上依然是基于深度学习的单麦降噪技术,只是借助了骨传导信号所提供的信号,并将骨振动传感器信号和用于通话麦克风信号一起送入 DNN,经 DNN 模块预测,实时分离人声和背景噪声,提取清晰人声,从而大幅度提升通话的清晰度。

以上几方面的技术叠加,最终实现了 DreamPods 这款耳机在超低信噪比场景的高清通话,以及对于周围人声干扰的完全隔离——也就是前文描述的,通话对方感觉不到你身处噪音环境,感觉不到你旁边有人说话。

值得一提的是,在实现单麦 AI 骨传导通话降噪技术的落地之前,大象声科是全球范围内最早在手机端实现单麦 AI 通话降噪的公司,目前国产很多安卓手机包括小米、OPPO、vivo 等都搭载了他们的技术。

大象声科也同时提供单麦/双麦 AI 单双麦通话降噪方案,在去年深圳湾的新硬件峰会上,大象声科创始人苗健彰(Eric Miao)曾经为我们做过详细的介绍。

△ 大象声科创始人苗健彰(Eric Miao) | 图源:深圳湾


横比分析:DreamPods,AirPods Pro,FreeBuds 3 通话降噪性能实测

在大象声科技术团队的指导下,我们对 DreamPods、AirPods Pro 和 FreeBuds 3 这三款 TWS 的通话降噪效果,进行了一次专业的降噪性能测试。

测试选择的环境是十字路口噪声场景下,对比方法是三组两两对比测试。

我们将左右两耳分别佩戴 AirPods Pro 和 DreamPods,两个耳机分别连上手机蓝牙打电话,并开启华为手机自带的电话录音功能,录下通话音频。

△ AirPods Pro vs DreamPods 对比音频 | 图源:大象声科

在该场景下,二者语音都非常清晰,声音连续。从降噪方面,DreamPods 对于稳态和非稳态噪声都抑制的非常好。

细微之处,AirPods Pro 在 5.5s 的频谱图上,表现出明显的非稳态噪音——实际体验则是非常清晰的鸣笛声,而这种声音往往会对目标人声造成一定的干扰。

而在同一时间段,DreamPods 几乎看不到噪音谱——正如我们开篇体验的那样,几乎完全听不到公交车的鸣笛声。

我们再看一下 FreeBuds 3 和 DreamPods 的对比表现。

△ FreeBuds 3 vs DreamPods 对比音频 | 图源:大象声科

两副耳机的语音通话都比较清晰,DreamPods 对于稳态噪声方面略优于 FreeBuds 3,而在非稳态噪声方面,DreamPods 明显优于 FreeBuds 3。

从频谱图上可以看出,FreeBuds 3 有不少稳态噪声的残留。而 DreamPods 完全没有。瞬态噪声方面,DreamPods 也能做到几乎完全的压制,明显优于 FreeBuds 3。

我们前文提到,AirPods Pro 和 FreeBuds 3 均采集了骨传导信号,但因为传感器的不同,前者采集的是数字信号,而后者为模拟信号。二者通话降噪对比有何差异呢?

△ AirPods Pro vs FreeBuds 3 对比音频 | 图源:大象声科

对比频谱图并没有特别大的差异。Airpods Pro 相比 FreeBuds 3 在高频上语音保留更多,听起来更亮一些,更加清晰、饱满。

而降噪方面,FreeBuds 3 对于稳态噪声消除优于 Airpods Pro,而对于刹车声这样的非稳态噪声,二者几乎都没有做相应的抑制,因此听上去非常的刺耳。

湾里小结

这两年,随着 TWS 蓝牙芯片技术的日渐成熟,蓝牙连接稳定性、低功耗和长续航,越来越多的 TWS 产品涌入市场。

在市场完成初步的教育后,接下来各大耳机厂商比拼的就是降噪性能和差异化,而卓越的通话降噪体验首当其冲。

漫步者 DreamPods 只是一个缩影,只是大象声科 AI 骨传导降噪技术在 TWS 上的一次落地尝试。但是,随着技术的逐步成熟,我们可以看到 AI 语音技术在终端产品上的应用,已然成为趋势。

未来,将会有更多的 TWS 耳机,将「AI 语音降噪」作为产品标配,而大象声科的实力,不容忽视。





微信号:shenzhenware

主笔:陈壹零 / 深圳湾

编辑:森林木 / 深圳湾

推荐阅读
关注数
4351
内容数
60
2020 年产品、技术、应用、行业,全面汇总整合,关注智能音频产业上下游生态。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息