LiveVideoStack · 2022年08月09日 · 北京市

对话Karlheinz Brandenburg:MP3的成功源自其高效的音乐压缩技术和优秀的商业模式

图片


策划、翻译:Alex

技术审校:王晶

人物对话 #005#

上世纪90年代初期,有一种音频技术凭借其惊人的压缩效率,迅速席卷全球,并彻底改变了人们聆听音乐的方式。

这种技术就是MP3,全称为MPEG Audio Layer III,是一种用于数字音频和音乐的编码格式。它在保留最佳音质的同时,可以将文件大小缩减75%~95%。

通过MP3,人们可以轻松地访问全球各种音乐,它也因此迅速获得了巨大成功。然而,这对于当年的音乐行业来说,却并不是什么好消息。

当时发生了什么?MP3开发过程中又有哪些故事?

为了深入了解这项伟大发明,LiveVideoStack近期采访到了被人们称为“MP3之父”的Karlheinz Brandenburg教授。虽然教授本人并不喜欢“MP3之父”这个称呼,但他无疑是参与开发这一流行格式的最重要的科学家之一。

图片

Karlheinz Brandenburg

在这次邮件采访中,Brandenburg教授谈论了他是如何开始MP3研究工作的,他与团队在开发过程中所遇到各种挑战、MP3获得巨大成功的重要原因,以及MP3给音乐行业所带来的毁灭性灾难。

Brandenburg教授还跟我们谈论了他的新目标——创立一家世界领先的音频技术公司,以及他目前所关注的音频项目。

图片

Brandenburg教授创立的新公司:Brandenburg Labs GmbH

回望过去,教授告诉我们,他深受父母影响,并在很小的时候就培养了对于数学和工程的兴趣,而这些兴趣也很自然地为他日后的职业生涯奠定了基础。

以下是LiveVideoStack与Brandenburg教授的对话内容。

LiveVideoStack: Brandenburg教授,我们非常高兴您能参加我们的访谈,在正式开始之前,您可以向我们的读者介绍一下自己吗?

Karlheinz Brandenburg: 我是Karlheinz Brandenburg,目前是伊尔默瑙工业大学(Technische Universität Ilmenau)的一位资深教授。除此之外,我还是Brandenburg Labs GmbH的CEO,这是一家致力于通过耳机实现完美逼真的沉浸式音频体验的初创公司。如果你以前听说过我的名字,很可能是因为MP3。从最开始的基础研究和标准化到之后的技术推广,我和我的团队重度参与了MP3格式的开发。

早年生活

LiveVideoStack: 您当初是如何对数学和工程产生兴趣的?

Karlheinz Brandenburg: 小时候,我就经常玩那些儿童工程玩具,我不仅能重新组装它们,还尝试从零开始搭建一切。我非常喜欢摆弄电子器件,甚至在很小的时候就可以自己制作集成电路。除此之外,我的父母也非常擅长数学,虽然他们后来并没有从事数学工作。因此,在学校的时候,数学对我来说就很容易。因为我喜爱这门学科,所以我可以做得非常好。

LiveVideoStack:在您年轻的时候,有没有一个特别的人对您产生了很大影响?

Karlheinz Brandenburg: 我很崇拜我的父母。成长期间,我如饥似渴地阅读书籍来拓宽我的知识面,我还演奏乐器,并喜欢身处大自然之中。我记得我读过很多关于著名发明家的书,并思考他们的伟大成就。但我从没有想过自己有一天也能成为一名发明家。

LiveVideoStack:回望过去,您会给年轻的自己什么样的建议?

Karlheinz Brandenburg: 我给年轻的自己的建议是:坚持前行。我在学校时就一直是最优秀的学生,并作为团队领导者和组织者承担责任。在进入大学后,我决定将电气工程和数学作为我的专业。因此,我必须努力学习并深入其中的概念以便更好地理解它们。我曾经同时肩负好几项工作和职责;回望过去,我给自己的另一条建议就是:需要明白自己的限制所在,不应该做过多尝试。

MP3发明之路

LiveVideoStack: 您能跟我们说说,您是如何开始MP3研发工作的吗?

Karlheinz Brandenburg: 事实上,MP3背后并没有什么重大计划。我完成了电气工程硕士学位,所写的论文课题正是电子信号处理。这项工作需要一个较快的处理器,但当时这样的处理器价格昂贵,而且那时大学也没有这种特殊的计算机可用。

后来,我的教授和博士生导师Dieter Seitzer希望通过ISDN(综合服务数字网,Integrated Services Digital Network)传输高质量音频,尤其是音乐。这种早期的数字电话网络的速度是128 kbps,放在今天早就已经不能用了。Seitzer教授当时要申请一个系统专利(在电话线上使用该系统分发音乐),但专利审查员告诉他这个系统不可能实现,因为它需要高得多的码率。

因此,教授决定找一个博士生来深入研究这个系统,并询问我是否愿意接受这一课题。对于博士项目来说,这个课题非常棒,所以我同意来检查它。不过,我当时和专利审查员的想法一样,这个系统是无法正常运行的。后来当然它的效果比预期要好得多。20世纪80年代初,我们准备好了第一个系统。它基本上是针对语音编码而开发出来的,并以30 KHz的采样频率运行在一台特制计算机上。任何其他多余操作都会让这台在Erlangen(埃朗根,德国城市)的电脑崩溃。

我们在各种会议上展示了这一发现,然后真正的工作开始了。我们研究了为什么系统(至少针对某些音乐)会向终端用户传输糟糕的音频质量。这个时候,有人向我们提议研究人类对于声音的感知(心理声学),我使用迷你计算机做了一些测试,但这些计算机刚刚推出且速度非常慢,处理20秒的音乐要花上数小时。很遗憾,那时我们的工作依然没有任何进展,按照科学方法,我们不得不考虑其他出路。而这个过程持续了好几年。

1986年,我的一个想法被证明有了突破。我阅读了一些关于人们如何处理语音编码的论文,并将它们与我们早期的音频压缩理念结合。我们因此获得了更大的灵活性,尤其是之前很难编码的音乐也可以实现更好的声音质量。通过这种方法,我们系统的效果比以前好了很多。

1986年下半年,我给我的论文导师写了一封信,告诉他我认为有一种新的算法将成为最佳音乐编码系统。我们由于参与了一项重大合同——计划和开发一种被称为DAB(数字音频广播,Digital Audio Broadcasting)的数字无线电系统,而获得了公共基金的资助。我当时还只是所在大学的博士生。那时,Seitzer教授在Erlangen成立了一个新的Fraunhofer科研团队,而我的硕士论文导师Gerhaeuser博士是其中研究这些课题的部门负责人。很快,我们就有了一些开发和标准化MP3的研究人员和各类资源。

当我们和欧洲其他研究团队积极参与这个项目时,意大利电信(Telecom Italia)的Leonardo Chiariglione博士(MPEG创始人)也开始努力开发用于编码视听信号的通用标准。最初的目标是使用音频和视频的数字低码率编码将电影放到CD-ROM上。我们当时的总码率为1.5 Mbps,其中视频占据了大部分码率。我因此有机会参加于德国汉诺威举行的MPEG内部音频专家组的第一次会议。

此时,MPEG音频专家组的发展正处于早期阶段。基本上,所有活跃于这个领域的研究小组都参加了第一次会议。在汉诺威的会议上,我第一次接触到AT&T的贝尔实验室,该实验室的James D. Johnston和我所做的工作非常相似,我们随后便开始了合作。最终,有14个研究小组提交了提案。在拥有相似想法的公司应该合作的压力下,我们和AT&T以及其他公司一起提交了一个被称为ASPEC的提案,该提案后来成为了MP3音频的基础。这一模式在低码率下可以获得最佳音频质量,但同时它也是最早的MPEG-1音频标准中最复杂的模式。

LiveVideoStack: 开发MP3过程中遇到的最大挑战是什么?

Karlheinz Brandenburg: 当时最主要的挑战是:我在1988年完成博士学业时,仍然有一个信号无法达到预期,那就是美国歌手Suzanne Vega的歌曲_Tom’s Diner_(出自其音乐专辑_Solitude Standing_)中的无伴奏清唱声音,在压缩后听起来非常糟糕。找到其中的问题以及如何解决在当时是一个技术障碍。

随后的一个困难就是来自标准委员会的权力斗争。其他竞争对手要么获得了行业的广泛支持,要么与主流广播电视公司有关系,相比之下,我们小组都是领域内的新人。Seitzer教授曾向德国的广播电视公司提议,请他们了解一下我们的demo技术时,甚至被告知“毫无兴趣”。

此外,标准委员会被各种权力人物和有话语权的个人分裂,反对我们提出的任何提案。

LiveVideoStack:作为一种音频压缩方案,MP3当时面对很多强劲的竞争对手。它是如何从中脱颖而出,并大获成功的?

Karlheinz Brandenburg: 在专利许可方面,我们最初参考了其他技术的做法。后来我们找到一种方案,既可以使我们受益,同时终端用户也能免费使用这项技术,而软件解码器公司不得不支付相对低的一次性费用。除了PC(包括移动电话),被许可人都必须为每件出售的硬件支付一小笔费用。这些费用加起来很丰厚,而且今天有数十亿手机和电脑都采用了MP3技术。

在消费者电子行业的一位重要管理者后来告诉我,我们这个在Erlangen的团队是领域内为数不多知道如何在互联网上做生意的人。

MP3成功背后的一个主要原因是:1997年左右,无需版权所有者的授权,人们获得CD后,就可以使用MP3在互联网上发行新的音乐。对我而言,这与盗窃无异。我们从不支持这种传播方式,也无法对这些行为负责。当然,这种做法确实帮助了MP3的普及。

LiveVideoStack:您以共同发明MP3闻名于世界,但您为音频世界所做出的贡献远远不止这些,您可以跟我们介绍一下您做过的其他事吗?

Karlheinz Brandenburg: 我们先后在埃尔朗根-纽伦堡大学,伊尔默瑙工业大学继续研究用于不同目的的最佳音乐压缩方案。我重度参与了AAC(Advanced Audio Coding,高级音频编码)的开发。众所周知,Apple公司选择了AAC作为其主要编解码器。之后在伊尔默瑙工业大学,我们的工作集中在为环绕音环境提供更好的音频再现。我们想为扬声器创造完美幻响(perfect illusion),而由荷兰的代尔夫特理工大学(Delft Technical University)最初开发的方法非常有效。我们便与他们合作,进一步发展了这些方法,并最终推向了世界。当然,我们自己的技术(现在被称为SpatialSound Wave)现在还是一个小众产品,但当时的一些基本概念现在到处都在使用。

LiveVideoStack: 在MP3之后,音频世界中还有哪些技术创新令您印象深刻?在您看来,音频压缩领域中的的下一个里程碑技术会是什么?

Karlheinz Brandenburg: 我认为音频压缩问题已被解决。虽然,一些人仍然在努力提升音频质量。在电话线上传输高质量音频用于通信这一古老梦想已经通过早期团队的大量工作而实现。今天,大部分最新手机都能理解EVS(Enhanced Voice System)。Erlangen的团队为开发EVS标准做出了重要的贡献。我们目前的工作是实现另一个古老的梦想: 当你带上耳机,我们称之为真正的沉浸式音频会让你沉浸在周围的声音世界中,听起来非常逼真。

席卷世界

LiveVideoStack:为什么MP3会在互联网上传播得如此之快?当时发生了什么?

Karlheinz Brandenburg: 在互联网上分享音乐的想法在MP3广泛传播之前就已存在。问题是大的音乐公司不希望售卖黑胶唱片和CD的生意被破坏。有了MP3,人们像野火一样传播音频,而不必担心发行的合法性。Apple的创始人史蒂夫·乔布斯曾告诉那些大的音乐公司,它们没有太多选择。随后,在互联网合法发行音乐的想法也流行起来。

LiveVideoStack:您是从什么时候开始意识到MP3给音乐行业带来的巨大灾难?

Karlheinz Brandenburg: 在1994年后期,一位企业家想要通过互联网售卖歌手过往作品中的音乐,他拜访了我们并向我们申请MP3技术的专利许可。他当时已经预测到了低码率编码将会摧毁音乐行业。我们考虑帮助音乐在互联网上合法发行,因为很明显,这些新技术不会消失,它们将一直存在。

因此,我们开始研究音乐加密,计划是发行可以解密合法文件的解码器(不会增加额外成本)。以加密格式发行音乐意味着这些音乐不会复制给其他人。那个时候,音乐行业内的人士都知道我们在做这件事,所以他们从没有向我们直接表达过怨恨。事实上,RIAA(Recording Industry Association of America,美国唱片协会)的前主席曾在一次访谈中称我为朋友,如果他认为问题是我们造成的,就不会这样说。

1998年以来,我们曾多次被问到,是否认为我们有可能因为未经授权音乐的发行而被起诉。我的回答是:MP3是日内瓦的ISO(国际标准化组织)发布的标准,我们不对标准如何使用承担法律责任。

LiveVideoStack:在您看来,MP3获得巨大成功的最主要原因是什么?

Karlheinz Brandenburg: 我认为MP3之所以获得巨大成功,主要因为它是一个非常棒的音乐压缩技术解决方案,同时我们优秀的技术许可商业模式让所有人都可以使用MP3。它的出现恰逢其时:当时的PC速度足够快,而且被广泛使用。我认为MP3是在正确时间出现的正确技术,我们很幸运。

LiveVideoStack: 对于MP3来说,您即是研发者,也是推广者。如您所见,这两个工作哪一个更具挑战性?

Karlheinz Brandenburg: 我虽然是一名工程师,但我认为人们应该接受挑战,将自己的发明推向市场。我在SDMI(Secure Digital Music Initiative,安全数字音乐组织)遇到了很多其他公司。SDMI是一个汇集了众多想要为音乐行业找到出路的公司和个人的国际组织,其会议涉及内容和技术。我记得在洛杉矶的一家机场酒店中,SDMI的第一次会议开了一整天。SDMI的工作毫无进展,但我们的技术却成功了。众所周知,人们可以通过MP3轻松访问全球范围内的大量音乐,它已经风靡世界。

新的目标

LiveVideoStack:2019年,您辞去Fraunhofer IDMT(弗劳恩霍夫数字媒体技术研究所)所长一职,并创立了Brandenburg Labs GmbH。您为什么会创立一家新公司?您想要达成什么样的目标?

Karlheinz Brandenburg: 当我离开Fraunhofer,我意识到这可能是一个绝佳的机会,可以让我专注于那些心中酝酿已久的想法(但过去却没有足够的资源来实现)。特别是通过耳机实现完美音频幻响(perfect audio illusion)这一想法已存在几十年,但是其他公司的所有早期尝试都没有达到应有的声音质量。我们便开始钻研这个课题,在大学我们和几个博士生一起进行了基础的研究,最终发现了其他科研人员早些时候所忽略的内容。

图片

图片由Brandenburg Labs GmbH提供

当然,作为一名科学家,我一直希望技术可以以这种方式进步。我的博士生和我的发现也意味着教科书需要重写。现在的问题是,我们能将这些技术加入到下一代智能耳机中吗?

在离开Fraunhofer之后,我将自己的MP3专利费份额中部分剩余资金用作新公司的种子资金。我们已经有了概念验证(POC,proof of concept),但前路漫漫,仍要做许多其他事情。所以,我的目标就是创立一家世界领先的音频技术公司。

LiveVideoStack:您目前正在关注哪些项目?可以跟我们介绍一下吗?

Karlheinz Brandenburg: 我们的基本想法是:利用人类大脑处理声音信号的信息来提升听力:就像戴眼镜的人有时寻找架在鼻梁上的眼镜一样,眼镜只是提升了我们的视力。戴耳机也是如此,如果房间里噪音太大,你可以进行智能降噪,但这种降噪不同于我们今天所使用的技术。比如,你可以过滤掉一群互相喊叫的人声,同时能够提高声音与他人交谈。这将为用户提供个性化的音频实现。

LiveVideoStack: 凭借着超低压缩能力,AI音频编解码器正在吸引人们的注意力。您如何看待AI音频编解码器的优势和局限?它的最佳应用场景在哪里?

Karlheinz Brandenburg: 我并不相信这种编解码器。它需要总是依赖所学习的内容。我们发现,音频压缩或者MP3最重要的特点就是它们适用于一切。我认为AI音频编解码器最基本的问题是:它可能只适用于某一类乐器和声音,而无法适用于每个你向它发出的信号。

LiveVideoStack:最后一个问题,如果您有一个机会和一位数学家或者音乐家对话,您最想和谁对话?您想和他(她)谈论什么?

Karlheinz Brandenburg: 非常有趣的问题!音乐和数学常常联系在一起,我很想和这两个领域的专业人士交流。在数学领域,目前仍然有很多未解难题。数学的美妙之处在于它能帮忙我们更好地理解事物。所以我总是在想我可以向数学家们学习。你可能觉得很难相信,但我从不会称自己为数学家。数学从来都是学无止境。

另一方面,我热爱音乐,所以我总是很喜欢和音乐家聊天。

致谢

感谢高泽华老师、王喆老师、LiveVideoStack的读者朋友SoundStudio提供问题线索;感谢王晶老师审校了本篇采访;感谢Brandenburg Labs GmbH的Franciska Wollwert在整个采访过程中所提供的帮助。

本次采访中所有图片由Brandenburg Labs GmbH提供。

往期人物对话:


▼识别二维码或猛击下图_订阅课程▼

图片

推荐阅读
关注数
4162
内容数
363
分享音视频相关技术干货、产品研究与行业趋势
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息