半导体行业观察 · 2021年12月15日

OPPO首个自研芯片背后:DSA的胜利

来源:内容来自半导体行业观察(ID:icbank)原创,作者:李寿鹏。

2019 年 2 月,图灵奖获得者John Hennessy 和 David Patterson发布了一篇名为《A new golden age for computer architecture》的文章。在文章中他们指出,伴随着摩尔定律和登纳德缩放定律的终结,要想获得像 20 世纪八九十年代那样的的性能改进,就需要新的架构方法,以更高效地利用集成电路,而DSA就是他们想要的答案。

据他们在文章中介绍,所谓DSA(domain specific architecture,特定领域架构)是一种针对特定领域定制的可编程处理器,能够用于加速某些应用程序,实现更好的性能。如现在因为AI大行其道的GPU就是一个基于DSA思路设计的产品。包括谷歌、Tesla和Cerebras在内的厂商也针对其特定应用推行他们的DSA芯片。

日前,本土手机厂商OPPO也带来其影像专用NPU——马里亚纳® MariSilicon X,揭开了公司造芯的神秘面纱。透过这个芯片,我们不但看到了这个手机巨头在提升用户体验方面的“芯”思考,也看到了属于DSA的又一场胜利。

DSA在影像NPU上的实践

自苹果在2007年推出第一代iPhone以来,智能手机在接下来十年经历了梦幻般的开局。不但芯片性能获得了大幅度的增长,屏幕的体验也获得了跨跃性的提升。但进入最近几年,手机创新缺乏,这让手机厂商将目标瞄向了改善拍摄体验,随之也给手机芯片的影像处理提出了新的要求。

作为一个需要处理多类型任务的芯片,手机主控芯片厂商在设计产品的时候只能在各项设计能力上做平衡。那就意味着在这些通用芯片上的ISP和NPU,在处理图像或视频的时候显得捉襟见肘。

近年来,Google在其Pixel手机上使用Pixel Visual Core/Pixel Neural Core 系列硬件加速器证明了AI算法可以提供远超传统算法的拍照体验之后,业界就开始探索NPU在降噪、HDR+和demosaic领域的应用优势。而OPPO正是通过自定义的芯片来应对这方面的挑战。

OPPO芯片产品高级总监姜波也指出,通用芯片要想达成终极体验目标,面临一些挑战:

一方面,智能手机在定制传感器后,有时候需要SoC做相应的配合,但SoC研发周期非常长,传感器需要的时间又非常短,这里面的平衡是非常难把控的;

另一方面,如果要针对目前市面上现有的传感器在SoC上做pipeline(链路)处理优化增强,也意味着需要研发要做很大的调整,成本增加不少;

此外,当算法和芯片不能做到相互完全开放和紧密耦合,更是无法发挥出它的最大效益。

基于这样的思考,OPPO发布了首款影像专用NPU——马里亚纳 MariSilicon X,这正是DSA在影像应用上的一个教科书般的实践。据姜波所说,这个芯片由一个自研的影像处理单元MariLumi、一个自研的AI计算单元MariNeuro以及片上内存子系统等核心部分组成。得益于这样的设计,其拥有四个不得不提的特性,分别是极致能耗比、行业领先的HDR、影像的AI的处理(包括影像算法的处理)都放在RAW上完成以及对定制sensor性能的最大化利用。

首先看极致能耗比方面。据介绍,MariSilicon X拥有18TOPS的算力,这正是DSA独特具备的优势。11.6TOPS/W的能耗效率更是让它在拥有强悍的处理能力的同时,功耗表现也不落下风。“按现在实际的算力情况,我们的芯片可以在800毫瓦功耗约束的范围内跑到40fps”,姜波举例说。

其次,OPPO的MariSilicon X支持20 bit RAW,领先于高通最新一代旗舰骁龙8平台的18bit和联发科的天玑9000,其120db的HDR让搭配MariSilicon X的手机在拍摄图片的时候,获得四倍于当前旗舰的动态范围。

第三,在影像的AI处理方面,马里亚纳X通过将AI降噪及HDR融合等复杂计算前置到数据更加纯净无损的RAW域,在影像信噪比和画质上远超传统YUV域处理方案;

据OPPO测试显示,在搭配了他们自研的马里亚纳 MariSilicon X的方案中,可以获得至少8dB的信噪比增强,相当于2.6倍的提升。在4k场景下,更是可以分别在图像亮部和暗部获得8dB和12dB增益。换而言之,自研芯片可以让图像暗部的信噪比做到4倍的有效提升。

最后,来到传感器的定制;

OPPO定制的RGBW传感器通过融入对光线更敏感的white像素,在保证色彩还原准确的同时提升了传感器进光量。但在通用型SoC的赋能下,如果想要发挥这一定制传感器的优势,第一步要做的就是在传感器端将RGBW remosaic成传统的RGGB信息,再传送给SoC处理。但在这个处理过程中,会丢失一些有用的信息。而为了与通用的SoC配合,又必须要做一些妥协和损耗才可以用上RGBW。

有见及此,OPPO选择了自研影像专用NPU与定制传感器配合的方法,让其产生的原始RAW数据与自研芯片有最紧密的耦合和最大限度优化。

具体而言,在设计图像处理pipeline的时候,马里亚纳X在提供RGGB链路的同时还具备white处理链路既能够获取良好的颜色信息,又能够提升信噪比。与传统RAW相比,带来的提升是非常显著的,这也正是DSA的意义。而按OPPO所说,借助两路pipeline的处理,可以得到7.9倍的信噪比的提升;在纹理细节上,通过2路的超采样,也可以获得1.7倍的解析力的增强。

“我们通过自研芯片和定制化传感器相互的化学反应和相互耦合,真正充分发挥出传感器在最初设计时候的最大能力。”姜波强调。

从上述的介绍我们可以看到,OPPO基于DSA的设计能够将以影像的体验发挥得淋漓尽致。而在这背后,其在芯片的定义、IP的设计和工艺的选择等多个方面的决定都功不可没。

自研IP引领的全面提升

熟悉芯片设计的读者应该知道,在做好了芯片的功能定义和架构规划之后,接下来的一个重要环节就是选择IP。常用的方案有第三方IP和自研两种。出于谨慎考虑,很多新入局芯片设计的厂商都选择前者。但OPPO却走了一条相对较难的路。

在问到为何作出这个决定时,姜波回应道,在决定研发马里亚纳 MariSilicon X之后,公司也考虑过一些第三方IP,市场上也有很多IP厂商可以提供NPU。但他们在评估之后发现,并没有一个现有NPU可以在其自身的场景和算法下,达到他们认为的最优能耗效率。因此他们从头开始自研做了NPU,这就是MariNeuro IP面世背后的原因,这也让OPPO首个自研芯片MariSilicon X拥有了强悍的性能。

除了MariNeuro之外,OPPO还自研了MariLumi IP,正是这个IP,让OPPO的马里亚纳 MariSilicon X在图片的HDR处理方面拥有其他手机芯片旗舰所不具备的实力。

为了让设备更好地处理这些庞大数据,OPPO还给这个芯片配备了片上的内存子系统,避免数据频繁读写产生的时延和功耗提升。这个Tb级的子系统让该芯片在处理海量数据时依旧游刃有余。这也是OPPO能够把之前应用于图像的AI算法应用于实时视频处理的一个重要原因。

又因为OPPO还专门为这个芯片集成了8.5GB/s的独立DDR带宽,因此当MariSilicon X跟一个主芯片搭载在一起使用时,整个系统的DDR吞吐率又增加了17%。

对于一个芯片来说,架构、处理能力和I/O是决定其性能的关键要素。但正如摩尔定律的含义所体现的,芯片的制造工艺才是决定一颗芯片性能的根本。同时,作为一个商用产品,该芯片同时还需要在成本上做权衡。基于上述考虑,OPPO团队在公司的首颗芯片上选择了6nm。

据姜波介绍,公司在开始芯片设计的时候评估了各种工艺制程。他坦言,选择更落后的工艺,在芯片的设计、实现、周期和成本都极具优势,但之所以选择6nm,主要是基于他们经过仿真之后得出结论——即便有自研的MariNeuro和MariLumi IP,但如果选择落后的工艺(如12nm),做出来的芯片很难达到终端应用所需的极致功耗性能要求。因此他们别无选择。

“从工艺制程来讲,6nm应该是台积电第一个主流的采用EUV的制程。因为有了这个制程,我们非常好地支撑了同级最好的能效比,包括在RAW上的复杂算法处理。”姜波补充。他进一步指出,OPPO的这个6nm芯片上,实现了一次点亮,这足以证明OPPO芯片团队的实力。这也让他们成为了国内为数不多可以实现6nm设计的企业。

除此以外,笔者还认为,OPPO的6nm芯片背后其实还有更深层次的含义:

一方面,进入到10nm以后,传统的DUV光刻机已经不再能够满足芯片继续微缩的需求,EUV光刻机便应运而生。从目前的情况看来,如果想继续打造更高性能的芯片,懂得设计使用EUV光刻机生产的芯片是一个必备技能,而OPPO团队在马里亚纳 MariSilicon X芯片的实践上展现了他们在这个方面的实力,让他们拥有底气去探索更多的芯片可能。

另一方面,6nm芯片的流片成本较之过往的芯片工艺成本有了大幅度的提升,每流片一次的成本可以以“亿”为单位。但OPPO依然能这样高举高打,足以体现他们造芯的决心。

姜波也强调,和其他芯片厂商做芯片只是追求终端厂商成本和需求的平衡不一样,OPPO造芯的目的相对纯粹很多,那就是用“加法”思维去“堆料”,以提高用户体验为最终目的。他进一步举例说,当这颗芯片与高通或联发科主芯片一起在手机内工作时,并不是为了取代后者的部分功能,而是希望通过增加芯片,增加算力,与它们一起把事情做得更好。

写在最后

在文章开头谈到的John Hennessy 和 David Patterson的文章中说到,登纳德缩放定律和摩尔定律的终结,把高级、特定领域的语言和架构将架构师从专有指令集的链条中释放出来,这将为计算机架构师带来一个新的黄金时代。他们同时还指出,未来十年,将会有一场新计算机架构的寒武纪爆炸,这对业界和学界的架构师们来说将是激动人心的时刻。

对于OPPO来说,这也是他们的一个机会。

正如姜波所说,MariSilicon X只是OPPO在计算影像上探索的第一步。因为OPPO离消费者比较近,会对用户痛点以及产品的价值主张比较清晰,所以OPPO在做一些方向选择的时候,也更容易做决策。而这正是DSA的精髓所在。

从日前的一些媒体报道中我们看到,OPPO现在拥有了一个超过2000人的芯片团队。通过OPPO对MariSilicon X的解读,笔者有理由相信这家国产手机芯片“新贵”迎来的,不仅仅是黄金十年。让我们静候一个更好体验的时代到来。

推荐阅读
关注数
11318
内容数
1959
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息