合作案例学习：与哈佛大学有关机器学习的硬件研究

伙伴关系对Arm公司来说十分重要。我们是一家依托生态发展的公司，这意味着我们致力于和伙伴公司一起合作以取得共同的成功。这种理念在Arm的研究中衍生，紧密的合作关系将我们的业务范围进一步扩展到了行业的未来。大学的参与是这些合作关系的重要组成部分，他们帮助我们建立对那些刚刚在学术界兴起的新技术的理解。位于波士顿的Arm ML研究实验室与包括波士顿大学和哈佛大学在内的当地大学进行了多项此类合作。

图1：按主题分类每年发表论文数增长趋势图。资料来源：人工智能指数，2018年年度报告

我对人工智能（AI）和机器学习（ML）有着浓厚的兴趣。上图概述了一个经常被引用的趋势，显示了当前集中在该领域的研究资源数量。自1996年以来，关于AI的出版物增加了7倍，而计算机科学的出版物在同一时期仅增长了五倍。关于AI的话题正在人群中逐渐普及，并且快速发展，似乎每一天都会有关于AI技术的新进展。在机器学习研究中，我们跟踪并积极为许多最新趋势做出贡献。我曾经在博客中介绍过关于Arm ML研究中的一些活跃项目，包括增强现实，硬件转移学习关于学习量化的Alpha-Blending技术以及TinyML。

然而，我们的资源是有限的，我们不能同时跟随所有的AI技术。因此，学术合作起到了重要的作用。与大学合作可以使我们扩大影响范围，并能引申到与当前产品和技术相去甚远的主题和思想。除此之外，大学校园通常还拥有Arm内部所没有的专业知识与专家。从学术方面来看，这种关系也同样有益。与行业的密切合作有助于大学的指导研究和教学，同时为毕业生创造就业机会并帮助吸引资金。在这个博客中，我将会讨论我们与哈佛大学在机器学习硬件方面的战略合作关系。

哈佛大学几乎不需要介绍，可以说是世界上最著名的大学之一。在过去几年中，我曾经与哈佛大学的多位教职员工，学生，博士后有着很愉快的直接合作。最近，我们写了一篇关于机器学习的计算机架构的简短文章。去年，我们通过三年的赞助合作正式扩大了哈佛和Arm Research之间的有关机器学习硬件的合作研究关系。哈佛的两位教授，David
Brooks教授和Gu-Yeon Wei教授参与了这项合作研究。他们两位是计算机架构和电路方面的知名专家。另外， Alexander Rush教授也参与其中，他曾在哈佛任职，现在康奈尔技术学院工作，是自然语言处理和机器学习领域的领导者。Arm则提供研究支持，IP资源，资金以及有关行业需求的反馈。

最初，合作的最初是因为一款受科幻启发的通用翻译设备。该设备的设计目标是通过超低功耗技术，在电池供电的设备中实现语音识别和翻译任务。这不依赖于基于云的计算，是与现有部署的设备完全不同的技术。这是因为我们经常将音频数据上传到云中，让云来进行神经语音识别和翻译的“繁重”工作。而在此次合作中我们希望避免将音频传输到云中，以减轻由于暴露个人数据有关的安全和隐私问题。但是，这也是一个具有挑战性的目标，因为它要求在能量严重受限的环境中使用神经网络推理。为了实现这些目标，就需要更先进的机器学习理论，更合理的计算机架构和更精进的电路。我们希望展示一个有制造芯片的真实的工作系统。我们有信心与哈佛团队进行完美的合作，以迎接这一具有挑战性的项目。

我可以很高兴地说，我们已经在几个领域朝着这一目标迈进了一步。去年夏天，我在享有盛名的日本京都超大规模集成电路（VLSI）研讨会上发表了一篇论文。论文中演示了我们与哈佛合作的机器学习工作负载测试芯片。它是第一个搭载了Arm A级CPU的学术测试芯片，这个特定CPU叫做Arm Cortex-A53。正是这种类型的处理器在各种电话和IoT消费类设备中最常见。因此，这是可以用于我们进行研究学习的一个十分优秀的平台。

在技术细节方面，测试芯片采用了16nm规格的工艺制程技术制造。16nm规格也被广泛用于商业产品中。我们探索了一系列所谓的硬件“加速器”，这些加速器是专门用于执行ML任务的计算组件，他们被用来与通用CPU进行比较。下图中展示了在测试芯片上组件的框架图，包括了低功耗Always-on子系统，行业标准的Arm
Cortex-A53 CPU群集，与缓存相关的数据路径加速器和嵌入式FPGA内核。您可以在最后的参考资料中阅读有关此CPU的更多信息。我还在2019年Arm研究峰会上谈到了这种芯片;我的幻灯片可以在参考资料中取阅。

图2：这是一个16纳米哈佛测试芯片的框图。它描述了具有行业标准的 Arm CPU芯片中运行的各种加速器技术和互连。

实际上，在过去的几年中，哈佛大学成功地流片出了一系列令人兴奋的测试芯片，所有这些搭载了具有行业标准的Arm IP的芯片都在先进技术节点中展示了新技术创新。为了证明这一点，下图显示了其中一些芯片的流片照片。
实际上，在过去的几年中，哈佛大学成功地流片出了一系列令人兴奋的测试芯片，所有这些搭载了具有行业标准的Arm IP的芯片都在先进技术节点中展示了新技术创新。为了证明这一点，下图显示了其中一些芯片的流片照片。

图3：过去几年哈佛流片展示。

在现有工作的基础上，我很激动看到随着我们朝着实用性的通用翻译器设备的目标努力的同时，Arm与哈佛大学的合作成果也将在未来几年中继续发展。我对这项技术有很大的信心，我相信她会在几乎所有的消费电子设备中出现，从恒温器到微波炉，甚至到汽车中。毕竟，语言是人类最自然形态的沟通方式。对我最有意义的是，我们必须教我们的电子设备来了解我们，而不是通过使用云。

在最后，我对该项目资金支持者，DARPA 和合作者共同撰写的NSF grant ，表示深深的感谢。

Arm研究合作与实现

Arm对学术界和研究领域有着长期的承诺，其目标是使所有人都能使用技术。我们专用的（RCE）团队提供IP和工具的访问，同时与学术机构建立合作关系以实现全球性的创新研究。

参考资料

¹ P.N. Whatmough et al., "[A 16nm 25mm2 SoC
with a 54.5x Flexibility-Efficiency Range from Dual-Core Arm Cortex-A53 to Cache-Coherent
Accelerators](http://ieeexplore.ieee.org/st... "Read the full paper on the IEEE Explore website.")"
2019 Symposium on VLSI Circuits, Kyoto, Japan, 2019 pp. C34-C35.
doi: 10.23919/VLSIC.2019.8778002

² S.K. Lee, P. N. Whatmough, D. Brooks and G. Wei, "[A 16-nm Always-On
DNN Processor With Adaptive Clocking and Multi-Cycle Banked SRAMs](http://ieeexplore.ieee.org/st... "Read the full paper on the IEEE Explore website.")," in IEEE Journal of Solid-State
Circuits, vol. 54, no. 7, pp. 1982-1992, July 2019.
doi: 10.1109/JSSC.2019.2913098.

³ N.Whatmough, S. K. Lee, D. Brooks and G. Wei, "[DNN Engine: A
28-nm Timing-Error Tolerant Sparse Deep Neural Network Processor for IoT
Applications](http://ieeexplore.ieee.org/st... "Read the full paper on the IEEE Explore website."),"
in IEEE Journal of Solid-State Circuits, vol. 53, no. 9, pp. 2722-2731, Sept.
2018. doi: 10.1109/JSSC.2018.2841824.

作者：Paul Whatmough
翻译：Khorina
原文链接：https://community.arm.com/developer/research/b/articles/posts/collaboration-case-study-machine-learning-hardware-with-harvard-university

欢迎大家点赞留言，更多Arm技术文章动态请关注极术社区Arm技术专栏。

推荐阅读

目录