极术小姐姐 · 2019年07月17日

加速人工智能技术落地,揭秘Arm中国的AI布局路线图

6月28日,由电子发烧友主办的“2019年人工智能技术峰会”在深圳成功举行。本次峰会以“加速人工智能技术落地”为主题,汇聚了人工智能产业链上下游领先企业,超过一千名专业观众,近30位企业高管、行业专家纵论产业发展之道,从不同领域、不同产业环节出发,对2019年人工智能在中国市场的进一步落地,进行了探讨及预测。

Arm中国市场部负责人梁泉与Arm中国AI产品经理杨磊也参与演讲,为现场的观众带去了Arm中国对于人工智能技术市场的预测以及Arm中国周易人工智能平台的最新进展。

连接无处不在,如何把AI“放”进每个终端?

回顾计算发展的历史,梁泉表示经历了主机计算时代、个人计算和软件、互联网、移动和云计算这四次浪潮,第五次浪潮将是一个由数据驱动的全面计算时代,Arm生态系统在这波浪潮中将迎来巨大的机遇,推动经济增长及社会进步。但是,只有把当前的先进技术转化为坚实的业务,第五次浪潮才会成为现实。

Arm中国市场部负责人梁泉

根据Arm此前的预测,到2035年,全球将有一万亿设备实现互联。飞速发展的物联网已成为人类文明史中推进速度最快的新兴经济体系,全球累计物联网设备产生的新产值已达到30万亿美元,而在接下来的20年内,预计累计中国物联网相关设备及产值就将达到60万亿元以上。

此外,机器学习算法和深度学习芯片组在取得不断突破的同时,AI也持续向不同垂直行业领域、边缘终端纵横渗透,赋能边缘设备发展,应用于每个IoT终端节点,从软/硬两方面实现降本增效及体验升级。整个AI产业生态正在构建,新的秩序正在形成。“目前,90%的AI智能设备都基于Arm IP,Arm IP极大驱动了人工智能和机器学习技术的发展。Arm希望与合作伙伴共建面向未来的智能生态,实现这些优势。”梁泉强调道。

在此大趋势下,如何满足嵌入式平台日益增长的人工智能智能处理需求?梁泉指出,分布式计算成为未来方向,边缘处理在带宽、电源、成本、延迟、可靠性和安全性方面提供了好处。因为并非所有数据都需要发给数据中心去处理,在数据被搜集和使用的节点也应该具有这一能力。这意味着不仅要在笔记本电脑处理器中启用这种边缘处理能力,还要在性能、功耗和内存方面有限的小型嵌入式设备上实现这种计算水平。

此外,梁泉还提到,去年Arm中国推出的本土工程团队第一个成果——周易人工智能平台,采用完全自主开发的AI处理器和软件框架,让芯片厂商能够在现有的技术能力上,快速部署人工智能计算的算力,在同等的成本功耗情况下,能做到人工智能应用所需要的算力。它的核心包含两部分,一是Tengine软件框架,二是AIPU(人工智能处理单元),主要处理卷积神经网络、深度神经网络为代表的AI计算。从优化端侧芯片开发的角度看,周易平台降低了两个门槛:一方面是SoC集成AI功能的设计门槛,另一方面是上层软件的开发门槛。

梁泉表示:“未来的智能生态,所有基础革命都必须通过开放生态系统把成本功耗降下来,又能通过共同的标准和体系让大家协作,在同一个开发环境中,把应用服务做好。”

周易AIPU赋能边缘AI设备

众所周知,过去几年AI从一个被轻视的学术冷门研究突然爆红,一路狂奔到商业化的最前沿,在安防、金融、教育、制造、家居、娱乐等各个与人们生活息息相关的领域掀起了一股智能化升级和万物互联的飓风。

Arm中国AI产品经理杨磊

而在Arm中国AI产品经理杨磊看来,AI芯片的基础技术格局可分为云端和边缘端,目前AI训练基本上都是在云端进行的,需要用到的芯片主要是CPU、GPU和TPU等计算能力相对更强的芯片;但AI推理就不同了,有在云端进行的,也有在设备端进行的,而且现在越来越多的推理被放到了边缘侧实现。这就导致了目前人工智能应用面临以下三大挑战:

一、数据隐私性。目前人工智能应用最多的领域是视频和图片,以及自然语音处理,这些数据的处理基本都是在云端进行的,但这些数据传到云端后会有一个隐私问题,有些数据人们其实是不想传送到云端的。

二、算力问题。由于AI需要做的事情很多,比如物体检测、人体检测和识别、跟踪,以及行为分析等等,加上现在的摄像头分辨率越来越高,从720p 到 1080p ,再到4K,使得AI对算力的要求越来越高。这就要求芯片具有更高的性能,从几百GOPS到几TOPS。

三、功耗问题。因为边缘侧功耗限制,设备一般只有几瓦,留给AI运算的部分只有几百mW到2W,这就需要新技术来应对这个难题。

为了应对这三大挑战,Arm中国周易人工智能平台,使用的AI处理器Zhouyi AIPU,采用了全新的为AI设计的专用指令集,具有高性能和高灵活性,单核有0.5、1、2、4TOPS可选,还支持多核;是一个具有硬件IP、软件SDK和NBB的全栈解决方案;更重要的是,它支持安全扩展。

具有周易AIPU的参考芯片框架图

全新的专用指令集是如何实现高性能和高灵活性的呢?杨磊解释说,这是因为Arm采用了不同颗粒度的指令集,客户可以根据自己的需求用类似搭积木的方式来设计自己的AI处理器。“指令集根据运算能力从小到大,可分为标量指令、向量指令和面向AI硬件加速的AI固定指令。”此外,为了满足定制化和差异化需求,周易人工智能平台还支持用户根据特定场景,自定义扩展AI Fix Function指令。现场Arm中国的展示台上,秀出的16通道人脸识别监控系统Demo,正是由于周易平台Framework作加速,支持的通道数很多,处理速度也得到了进一步的加快。

杨磊还特别指出,在人工智能开发过程中工具链也是相当重要的,Arm可以提供完整的工具链供工程师使用。其“一键式”周易软件工具链,包括比如Build Tool/Driver、性能优化库、软件仿真器,以及AI算法示例等,可以实现一键从算法模型到周易可执行文件生成。

边缘计算已经成为未来趋势。在物联网应用中,让智能思考留在本地,其不仅可以降低功耗、降低时延、节约带宽,而且能够提高设备的独立性、安全性和私密性。“要通过边缘计算实现物联网设备的本地计算,需要具备以下几方面先决条件:具备优化的DSP,充分保证功能性安全,以及安全的平台架构、异构系统架构、机器学习能力、可扩展处理能力,而Arm也在提供周易人工智能平台这样的全栈式解决方案积极促进边缘智能计算的应用落地。”杨磊强调道。

推荐阅读
关注数
60027
文章数
1184
极术社区管理员小姐姐
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息