Total Compute：为将来的数字沉浸式提供计算性能

当今的移动设备是我们处理千万种不同用例和数百万个应用程序的的枢纽。举个例子，现代智能手机不仅可以打电话和发送消息，还可以发电子邮件，拍照，记录，传输视频，玩游戏并进行即时付款。它还可以充当个人助手，对声音响应和互动。它甚至可以与家庭以及办公室，学校或零售环境中的其他连接设备交互。正因为这些移动设备，我们生活在一个数字沉浸化的世界中。

设备上的新用例和体验将在未来以更大的规模继续发展。我们正在设计更智能的设备，这些设备将为终端用户提供完全定制的且更丰富，更快，更身临其境，更充实以及更便捷的体验。

但是，提升数字沉浸感需要更高级，更复杂且要求更高的多域计算工作负载。特别是对于所有新的XR技术（增强现实（AR）和虚拟现实（VR）），游戏，观看和基于AI的体验。这里有两个挑战。首先，未来的Arm IP将需要更高的性能来应对这些计算密集型工作负载。其次，这些未来的高性能设备，需要被封装到的更小功率的SoC中。

为了同时满足高性能和高效率这两个相互矛盾的要求，SoC设计方法需要被彻底转变。Arm计划通过被称为Total Compute的方法来实现这一目标。我们不仅要优化单个IP，而且要考虑整个SoC的系统级的解决方案。我们致力于于下一代设备的用例和经验。确保整个系统无缝协作从而提供最高的性能和效率，以实现数字沉浸。

系统上的互联

性能，非您所知

不断提高计算性能是Arm最擅长的领域之一。每年，我们都会发布新产品，这些产品不仅达到了性能极限，同时还考虑了移动设备所需的功效范围。Total
Compute并不特别，只是这次我们采用了基于解决方案的方法来加速这些性能的提升，这意味着我们需要通过对工作负载进行深入分析来查看整个系统的性能。这将分析如何在不同的IP模块和计算域之间最佳地部署互连数据和计算。

最终，更复杂的用例需要更强大的性能。增加有源芯片面积会导致热量和功耗预算的增加，这就是将各种IP块集成到SoC中所面临的挑战，这也是为什么需要强调整个系统的原因，每个IP模块都采用通用的基础体系结构方法进行开发就能实现性能，效率和数据交换的功能。这意味着所有组件可以无缝地协同工作，并且可以由开发工具轻松访问。

这也将智能构建到系统中，超出了单个计算模块。它不仅涉及了单个IP，还涉及了整个系统中有效互连的每个IP块。一流的性能和效率可以用在下一代设备上来实现未来的用例和体验。

未来的AR

以AR为例

AI功能（例如AI摄像头和计算机视觉）以及增强现实（AR）体验（例如多用户AR游戏）都是使用了Total
Compute的复杂用例。但是，通过特别关注AR技术，您可以了解为什么需要使用Total Compute。

对于不同的AR用例和体验，许多计算元素需要被组合在一起以使它们在设备上无缝工作。CPU以省电模式驱动性能，而GPU用来驱动图形。从用户的位置到特定的对象和地标，都使用AI进行检测。然后，我们需要将这个IP整合在一起，以便他们在系统中无缝工作。这就是系统IP（包括我们的互连模块，安全IP和控制器）带来巨大价值的地方，帮助构建针对低功耗约束和高安全保护的更好的系统。最后，需要超高速，高带宽，低延迟的Internet连接或网络来确保这些功能在用户移动时正常工作（稍后将对5G进行更多介绍）。

此外，这种计算会在未来中出现进行，到那时相关的形式设备可能比现在更轻量和更小。举例来说，未来的AR智能眼镜的对SoC的面积和功耗都有更严苛的要求。因此，与现在的普通高端智能手机相比，高性能将需要在更小的功率范围内实现。通过所有这些不同的元素，您已经可以看到在整个系统上进行优化的重要性，这将确保所有组件间的紧密协作。
AI功能（例如AI摄像头和计算机视觉）以及增强现实（AR）体验（例如多用户AR游戏）都是使用了Total
Compute的复杂用例。但是，通过特别关注AR技术，您可以了解为什么需要使用Total Compute。

将机器学习推向新水准

机器学习（ML）是Total Compute提升性能的一个领域。我们的Cortex
CPU产品的ML性能逐年提高。但是，要通过Total Compute启用各种数字沉浸式用例和体验，就必须将ML性能提升到更高的水平。在2019年TechCon上，我谈到了Arm将如何向我们的下一代CPU（代号为“ Matterhorn”）添加矩阵乘法（MatMul），使ML性能相比前几代提高一倍，这是一个重大的飞跃，并有助于实现一系列新的基于AI的用例和体验。

但是，不仅是CPU的 ML性能在提高。我们正在对所有计算领域的ML进行投资，来改进他们的性能。最新的Premium（Mali-G77）和Mainstream（Mali-G57）GPU提供了显著提升的的ML性能。两个提高了60％的性能密度的GPUs为移动设备提供了加速执行ML任务的能力。同时，最新的Premium（Ethos-N77）和Mainstream（Ethos-N57）NPU提供的ML性能和效率使AI在整个生态系统中释放出应有的功能。例如，Ethos-N77最多可提供四个TOPS性能，并能在多处理器部署中扩展到100个TOPS。

最重要的是，Arm NN（一个通用API），可在所有Arm IP上最大化ML性能。我们的性能分析显示了Arm NN的应用如何在短短六个月的时间内使GPU性能提升了9.2倍，在大型Cortex-A
CPU，LITTLE Cortex-A CPU和Mali GPU上都看到了这种提升。对所有计算领域的ML进行改进的持续承诺非常适用于将来Total Compute的解决方案。

芯片上的5G

5G推动者

全新的5G连接浪潮将支持Total Compute驱动的更高计算性能。5G有望成为整个移动生态系统的变革性技术。它提供了更快的的网络速度和更低的延迟，相比于4G快十倍。连接性的巨大提升，通过新的应用程序和体验，推动了数字沉浸的新潮流。同时，现有的应用程序，用例和体验在不断发展，这使移动过程中的用户可以更快捷，更身临其境，更方便的使用它们。5G需要在设备上捕获更多的数据和信息，从而增加未来的已经很复杂且计算密集的工作负载，所以说这对5G来说是一个巨大的挑战。5G兼备高数据量和高性能的需求，使得Total Compute解决方案对于未来的设计显得更加必要。

完整的系统视图

Total Compute是一种系统范围的设计方法用于实现下一波数字沉浸。该方法将加速计算性能，有助于在未来实现所有拥有巨大潜力的，并且激动人心的用例和经验。对于用户而言，这意味着他们可以在完全为他们定制的设备上获得更丰富，更快，更充实，更方便，更身临其境，更智能的体验。

我们致力于在所有计算域中提高性能的承诺为开发人员提供了为移动生态系统设计更身临其境的应用程序的能力。但是，能够在整个系统上对这些应用程序进行编程是一个挑战。

作者：Ian Smythe
翻译：Khorina
原文链接：https://community.arm.com/innovation/b/blog/posts/total-compute-performance

欢迎大家点赞留言，更多Arm技术文章动态请关注极术社区Arm技术专栏。

性能，非您所知

以AR为例

将机器学习推向新水准

5G推动者

完整的系统视图

推荐阅读

目录