音频正当时：我们和声网音频专家聊了聊AI、元宇宙、空间音频和“沉浸感”

编者按： 树枝上鸟儿的啁啾声，潺潺流水声，人们踏青时的欢歌笑语声，与春暖花开的画面融合在一起，呈现出一幅春色正浓的动态美景。可是当一切声音被消除，整个世界陷入沉寂，这幅美丽的春景图仿佛也在瞬间失去了色彩。声音在我们的日常生活中占据着至关重要的地位，与声音相对应的音频也是如此：音频可以独立于视频存在，而且音频的感知受到长短时记忆的影响更明显。这也是为什么音频可以调动人的情绪变化和好恶感知。

近日，LiveVideoStack采访到了声网的音频算法负责人冯建元，请他来跟大家聊聊音频相对于视频的优势、音频在元宇宙中的应用、国内音频技术与AI结合的发展、过去一年声网在音频领域所取得突破和对前沿音频技术的探索，以及他本人所主导过的成功项目等。

声网音频算法负责人冯建元

LiveVideoStack: 冯老师，您好，欢迎您参加我们的访谈，还请您向LiveVideoStack的读者介绍一下自己以及您目前关注的技术。

冯建元： 大家好，我是来自声网音频体验团队的冯建元。博士毕业于伊利诺伊理工，伊利诺伊大学芝加哥分校的特聘研究员，有过一年创业经验。现在在声网主要负责新一代实时音频引擎的研发。我关注的音频领域还是比较多的，从基于AI的语音编解码器、空间音频到声纹变声等都有在关注和尝试。

LiveVideoStack: 您深耕音频行业多年，先后主导过多个实时音频通讯领域的开发项目，在这些项目中，您最引以为傲的是哪一个？这个项目取得了什么样的成就？

冯建元： 如果在去年我会认为是我们发布了国内第一个AI语音编解码器Silver，它把码率降至3kbps还能做到32kHz采样的高质量语音编解码。到了今年，实时空间音频渲染引擎是我最引以为傲的项目，它实现了音频更高维度的管理，你可以任意改变所处的空间、位置，而你所感知的声音也随之变化，这让我们向沉浸式体验又多进了一步。

LiveVideoStack: 目前AI与音频技术的结合已经成为一种趋势，比如AI技术常用于音频降噪、回声消除和音频特效等。除此之外，AI和音频的技术结合还有哪些新的探索？

冯建元： AI技术可以渗透到音频的方方面面，它可以说是一个基础工具，从检测类的音乐检测、哮叫检测、VAD、music information到增强类的降噪、回声消除、音源分离，再到生成类的ASR、TTS、实时变声，甚至空间音频中的个性化HRTF都可以用AI模型生成，可以说AI几乎已经融入到了音频的每一个角落。

LiveVideoStack: 据您了解，与海外相比，国内对于AI与音频技术结合的探索目前处于什么阶段？有哪些差距或者超越的地方？

冯建元： 我觉得国内在AI与音频技术结合上已经是国际第一流的水平，尤其在严肃、传统的3A处理领域。在音乐、AI Codec等比较新的领域，我们则可能处于平分秋色或者在前沿探索方面略显滞后。

LiveVideoStack: 过去一年，在对音频技术领域的探索过程中，声网取得了哪些突破？克服了哪些技术上的困难？

冯建元： 说起技术突破那还是有不少的。我们打造了一套专为RTC设计的实时音频渲染引擎，可以低功耗地在普通手机上实现多人位置、朝向、声音模糊等一系列空间音频的渲染。我们把AI降噪做到了世界领先，在降噪鲁棒性、语谱保真等方面都有了很大的提高。还有刚才说的，我们还发布了基于AI的语音编解码器，可以做到超低带宽的高质量语音传输。

LiveVideoStack: 今年声网还将探索哪些前沿的音频技术？您能否为我们介绍一下。

冯建元： 今年我们也有很多有意思的探索，包括如何在“元宇宙”的场景中实现全方位的沉浸感，这就包括空间音频、实时声纹变声等技术。比如我们最近在做的实时声纹变声可以实现可定制的any to any的实时变声，加上空间音频的加持，以后我们的声音就可以在任意位置以任意形态出现。除此之外，我们还将针对音乐场景做一系列的编解码器、音乐AEC等方向的探索来提升实时音乐场景的体验。大家敬请期待。

LiveVideoStack: 元宇宙是最近一年以来非常火的概念，很多领域的专家都在探讨它的实现。您如何看待元宇宙的发展？您认为音频将在元宇宙中发挥什么样的作用？

冯建元： 我们在游戏、社交、协作的交互随着媒介的变化而不断改变。我认为随着VR、AR技术尤其是基于交互体验的进步，我们其实是一步一步朝着元宇宙的方向发展的。这个概念会火代表着人们确实觉得我们现在的交互是有很多待改进的地方。音频在其中，其实就是要让声音做到“声临其境”。这就包括两个部分：“消灭”和“重塑”。 消灭所有会影响临场感的因素包括噪声、混响、回声、杂音等等，然后根据所处的真实或虚拟的环境，重塑其中的音源和空间感知。

LiveVideoStack: 您认为相对于视频，音频有哪些不可取代的优势？您如何看待它的发展前景？

冯建元： 音频可以独立存在且音频的感知受到长短时记忆的影响更明显。这也是为什么音频可以调动人的情绪变化和好恶感知。人们对音频的变化相比较视频会更为敏感。所以在交互过程中，音频承载的信息量就会比较大且可独立于视频而存在。然而音频的发展和视频的发展应该是相辅相成的，毕竟在未来更为沉浸的交互过程里两者缺一不可。

LiveVideoStack: 对于未来有志于从事音频技术开发的人，您能否从自身的经验出发给出一些切实可行的建议？

冯建元： 我最近和极客时间合作了一个《搞定音频技术》的课程。我在制作这个课程的时候发现音频技术涉及的面是非常广的，但是音频最后都会被耳朵接收。如果能保持一个听觉上的敏感，就能发现很多音频处理可能发生的问题和可以改进的点。另外除了日常学习工作，大家追剧、看动漫、玩游戏、在线聊天的过程中不妨感受一下好听的声音是什么样的，影视作品和平时听的声音有什么区别，看看导演音频处理得到不到位，这些都能让你保持旺盛的好奇心与钻研音频的兴趣。

LiveVideoStack: 对于本次大会，您有哪些期待？在会上，您将为我们带来哪些精彩内容？

冯建元： 这次的LiveVideoStack音视频技术大会正好在元宇宙概念兴起与疫情导致音视频交互被大量使用的时间节点上，我期望能看到更多精彩有趣的音视频技术方案来提升我们的交互方式。在大会上，我将会为大家介绍声网在实时空间音频渲染的探索和进展，一起探讨一下我们如何让RTC也能有“声临其境”的交互体验。

封面图来自Unsplash，by Richard Horvath

▼扫描下图二维码了解音视频大会更多详情▼

推荐阅读

目录