嵌入式AI简报 (2020-02-16)

导读：本次内容20条。ARM 和恩智浦在低功耗Cortex-M和单片机上地动态、AI测温产业非常值得关注。
ARM 发布 Cortex-M55 和 Ethos-U55 系列，适合语音AI模型推理，ARM也发布用Cortex-M系列部署机器学习、Cortex-M结合CMSIS-NN 部署卷积网络模型的白皮书等等，NXP工程师也在 MCU 上实现并发布人脸识别、性别识别Demo及相关工具组件。
「开源项目」中的人脸口罩检测数据集、模型，谷歌的一项试验性MLIR执行环境的项目，都值得关注。
「博文」部分MNN两次直播的视频回顾和PPT、MLsys方向综述和Winograd算法通俗详解值得一看。
其它手机厂商的内容放在文末，想必也没几个人看到结尾_(:з」∠)_
微信公众号：NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

业界新闻

Arm推出最新Cortex-M55和Ethos-U55处理器内核：AI推理性能最高可提高50倍，支持自定义指令集，适用于语音推理 | EETOP

摘要：Arm推出了两个新IP（Cortex-M55和Ethos-U55）用来扩展其与AI相关的产品。
Cotex-M55 CPU：该CPU带来了Arm在过去一年中宣布的许多新功能。第一个新功能是支持自定义指令，Arm还把Cortex-M55称为“最具AI功能的Cortex-M处理器”，因为第一个实现Helium功能的处理器。
Helium也称为M-Profile Vector Extension (MVE)，是Armv8.1-M体系结构的扩展，它引入了新的SIMD 128位矢量操作，旨在增强DSP和ML应用和性能。它更多地依赖于现有寄存器，而不是像NEON这样的矢量寄存器，并引入了对诸如lane预测、loop预测和复杂操作(如scatter-gather)的新支持。更重要的是，它通过执行较小的数据块（32位）来做到这一点，以使IP的硅面积保持最小。对于机器学习，Helium提供了诸如VMLAV水平向量乘累加指令之类的指令。
Ethos-U55：是专用的 microNPU 推理加速器，可与 Cortex-M 系列 CPU 结合使用，带来专门面向于 NPU 的性能与能效提升。
了解更多Arm Helium、Armv8.1-M扩充架构、机器学习与讯号处理性能提升见：https://learn.arm.com/introdu...

ARM Mali-G77 GPU 获林立集团“最佳处理器IP”奖 | EETOP

摘要：1月21日，ARM公司宣布旗下的Mali-G77GPU获得了美国芯片市场研究咨询机构林利集团的“最佳处理器IP”大奖，这是ARM最新一代的移动GPU，性能大涨了60%，搭载Mali-G77GPU的高端智能手机今年Q1季度会正式出货。
Mali-G77是ARM去年5月份发布的最新一代移动GPU，采用Valhall架构设计，新架构带来了全新的ISA总线和计算核心设计，弥补了上代Bifrost体系结构的主要缺点。
在当前的移动处理器厂商中，高通、苹果的GPU是自己研发的，华为的麒麟990系列使用的还是Mali-G76，三星的Exynos980也是Mali-G76，用上Mali-G77的只有联发科的天玑1000、三星Exynos990，不过真正上市的仅有天玑1000，ARM所说的本季度高端机型上市指的就是基于天玑1000处理器的智能手机，主要是OPPO的Reno3系列。
联发科天玑1000采用了主频高达2.6GHz的4个ARM Cortex-A77大核+4个主频为2.0GHz的ARMCortex-A55核心，A77架构的性能相比上一代的A76架构提升了20%。而GPU方面，则采用了同样是最新的ARM Mali-G77MC9，主频为836MHz，相比上一代的Mali-G77提升了40%。天玑1000也是全球首款采用ARMCortex-A77架构+Mali-G77GPU的芯片。

英特尔砍掉“首款AI芯片”，改推刚收购的Habana | 量子位

摘要：英特尔方面还称，将以更大力度推进Habana Labs的Gaudi和Goya处理器——前者主打训练后者主打推理，以取代Nervana芯片。Habana Labs，于2016年创办于以色列，主打可编程深度学习加速器，瞄准数据中心。仅创办3年，在训练和推理两大市场均有芯片发布。训练芯片Gaudi，对标英伟达T4，4倍性能优势，推理芯片Goya，2倍性能优势。当然，英特尔旗下Nervana，在2019年发布首款推理芯片，NNP-I，性能3.7倍于英伟达T4。但要知道Goya上一次披露性能跑分，还是2018年年底，那时候英特尔自家产品并没有能同台竞技者。这或许也是最终英特尔决定全资收购的原因。

苹果2亿美元收购初创企业Xnor.ai | AI报道

摘要：据了解，Xnor.ai成立于2017年，在边缘AI技术方面名气初显。2019 年，Xnor.ai开发了能够在太阳能或硬币大小的电池上运行的独立 AI 芯片，可以自动监控杂货店货架的 Gizmo。除此之外，Xnor.ai与 Wyze Labs 达成协议，将其基于边缘的人员识别技术安置到 Wyze Labs 低成本安全摄像机中。Xnor.ai开发的产品可不必依赖于云计算，直接在智能手机、摄像头、无人机甚至嵌入式低功耗移动CPU等设备上运行。

摸底安防系「最热」AI测温产业：日供百套设备，单台报价过万 | 机器之心

摘要：为了赶工 AI 测温项目，不少员工直接吃住在公司，有的每天睡眠仅 2~3 小时……
目前，无论百度、商汤、旷视、格灵深瞳，还是高德红外、海康威视、大华、宇视等公司，均推出 AI 红外测温产品。
从市面落地方案来看，行业多采用红外/可见光双传感器，结合红外热成像和人脸识别，以非接触的方式实现多目标温度筛查，测温精度多在±0.3℃。
从技术逻辑上来说，它需要 AI 算法来做人像的识别和追踪，即在摄像头画面中准确定位每一张人脸，然后结合红外温度点阵计算出人脸（多为额头）的温度。这背后所涉及的戴口罩下的人脸识别、ReID（行人再识别），以及两个摄像头间的校准等细节问题直接影响各家方案的效果。

论文

可逆残差网络(The Reversible Residual Network)大幅减少GPU显存占用 | 我爱计算机视觉

标题：The Reversible Residual Network：Backpropagation Without Storing Activations
摘要：多伦多大学的Aidan N.Gomez和Mengye Ren提出了可逆残差神经网络，当前层的激活结果可由下一层的结果计算得出，也就是如果我们知道网络层最后的结果，就可以反推前面每一层的中间结果。这样我们只需要存储网络的参数和最后一层的结果即可，激活结果的存储与网络的深度无关了，将大幅减少显存占用。令人惊讶的是，实验结果显示，可逆残差网络的表现并没有显著下降，与之前的标准残差网络实验结果基本旗鼓相当。

剪枝实践：图像检索如何加速和省显存 | 知乎

标题：Progressive Local Filter Pruning for Image Retrieval Acceleration
摘要：图像检索速度是考核应用系统重要指标之一，但图像检索网络对于压缩算法更加敏感。网络微小改动，可能导致输出特征发生较大变化。为解决此问题，作者提出以下两点解决方案：

采用基于局部的方法：优先选择并删除局部关系最紧密的filter，即若某个filter与其邻接的filter足够相似，则其可被安全删除。由于该方法是对filter的局部修改，因此易于保持filter的整体分布不变；
尽量保持预训练模型的表征力。然而，删除filter容易造成网络容量(Capacity)变小，进而影响网络输出特征。软剪枝（Soft pruning）类方法将待删除filter先置0，并在微调过程中给予其一定机会恢复权重，能够在一定程度上缓解直接删除filter带来的网络容量损失的问题。但若删除filter的比例较大时，其也会严重影响网络表征力。为此，我们提出一种filter权重衰减策略，在训练过程中对待删除filter的权重缓慢减小，即权重乘以衰减因子г，直至其收敛为0或接近于0。

开源项目

google/IREE: An Experimental MLIR Execution Environment

摘要：IREE (Intermediate Representation Execution Environment, pronounced as "eerie") is an experimental compiler backend for MLIR that lowers ML models to an IR that is optimized for real-time mobile/edge inference against heterogeneous hardware accelerators.
The IR produced contains the sequencing information required to communicate pipelined data dependencies and parallelism to low-level hardware APIs like Vulkan and embed hardware/API-specific binaries such as SPIR-V or compiled ARM code. As the IR is specified against an abstract execution environment there are many potential ways to run a compiled model, and one such way is included as an example and testbed for runtime optimization experiments.

zamhown/wear-a-mask: 给你的头像戴上口罩(Wear a Mask)

摘要：项目使用了基于TensorFlow.js的face-api.js库。人脸检测任务使用了SSD MobileNet V1模型（用WIDERFACE数据集进行训练），人脸关键点检测任务使用了face-api.js作者构建的基于CNN的68点检测模型（在约有35,000张面部图像的数据集上进行训练），模型权重数据来源于face-api.js。

hikariming/virus-mask-dataset: 人员佩戴口罩检测数据集

摘要：目前已有200多张，基本为2020年一月疫情爆发后数据，后期会加入监控、医院照片等数据，争取使得数据集1000张以上。
标注方式为：标注人体全头部+肩膀上部，数据集总共有三类标签: rightmask/此人佩戴了可预防病毒口罩、wrongmask/此人佩戴了无预防病毒作用的口罩、nomask/未佩戴口罩。

jason9075/mask_checker: 脸部口罩检测模型

摘要：模型用 tf.keras 內建的預訓練模型 MobileNetV2 來訓練，資料集從網路上找有/無口罩各400張的臉而成。

百度宣布免费开源业内首个口罩人脸检测及分类模型 | 机器之心

在线演示：https://www.paddlepaddle.org....
摘要：该模型可以有效检测在密集人流区域中携带和未携戴口罩的所有人脸，同时判断出他们是否佩戴口罩。人脸识别和佩戴口罩判断在移动端部署的示例地址为：https://github.com/PaddlePadd...

UoB-HPC/openmp-tutorial: Exercises and Solutions for "Programming Your GPU with OpenMP: A Hands-On Introduction"

PPT：https://sc18.supercomputing.o...
摘要：This is a hands-on tutorial that introduces the basics of targetting GPUs with OpenMP 4.5 through a series of worked examples.
Starting with serial code, the tutorial takes you thorugh parallellising, exploring the performance characteristics, and optimising the following small programs:

vadd – A simple vector addition program, often considered the "hello world" of GPU programming.
pi – A numerical integration program that calculates and approximate value of π.
jac_solv – A Jacobi solver.
heat - An explicit finite difference 5-point stencil code.

博文

小米CC9背后的计算机视觉算法丨 InfoQ

摘要：小米人工智能部总监黄英。在 AICon2019 北京站针对“从研究到落地：小米计算机视觉算法实用化探讨”做了精彩的演讲，黄英在分享中首先简单介绍了小米在计算机视觉方向的业务，然后以魔法换天、人脸检测和智能挑片几个案例为例阐述了小米是如何将计算机算法进行落地，以及在落地中遇到的难点和解决方案。

在 MCU 上实现人脸识别、性别识别 | 嵌入式资讯精选

摘要：让深度学习模型在MCU上跑起来，其意义在于，可以将MCU功耗小、成本低、体量大、开发周期短、上市快、实时性好、响应稳等特性与深度学习的强大能力相融合，这势必会解锁一个庞大的市场，让海量的设备智能起来！
NXP的工程师基于i.MX RT1050跨界 MCU 实现了人脸识别功能，30多层的深度学习模型跑一圈只要295mS。NXP的工程师开发这些用例的同时，将所需的配套工具都做好了，并且提供测试版本供大家下载使用，还贴心地附上了一份万余字的用户指南。

王川: 为什么摩尔定律一直没死, 但人们还会继续预测摩尔定律要死 | 硅谷王川

摘要：本文剖析了为什么摩尔定律会一直发展, 但人们还会继续错误地预测摩尔定律要死的本质原因。"预测摩尔定律要死掉的人数，每两年翻一番“。

MNN两次直播 | 淘系技术

第一次直播：端智能与MNN初探：⾯面向未来的移动开发
视频回放：https://mudu.tv/watch/4308076
在线PDF：https://docs.qq.com/pdf/DVXVZ...
第二次直播-深⼊浅出谈 MNN 原理，为什么能这么快 | 淘系技术
视频回放：https://mudu.tv/watch/4397479
在线PDF：https://docs.qq.com/pdf/DVUNH...

MLsys各方向综述 | 知乎

摘要：作者以自己的角度，写了当前MLsys的各方向的总结，从分布式机器学习、深度学习模型压缩加速，再到框架系统设计，用ML优化传统的system问题等。最后结合招聘岗位需求总结了对应偏工程和算法的岗位技能树。

详解Winograd变换矩阵生成原理 | 知乎

摘要：网上已有不少从数学原理的角度去解说Winograd[1,2,3,4,5,6,10]这个算法的文章了，但作者没法完全理解，尤其是Winograd的变换矩阵究竟是如何生成的。许多细节部分都没有很详细的说明，只能通过额外去查找资料和手推公式来理解，作者针对这部分用比较通俗的方式给读者描述了一遍。

手机厂商这边，[小米10系列](https://mp.weixin.qq.com/s/2U...
)和[三星Galaxy S20系列发布](https://mp.weixin.qq.com/s/QR...
)，二者都有配备骁龙865。高通为推自家SNPE，也同TFLite等合作伙伴携手搞起了AI创新应用大赛。联发科因疫情的影响，表示Q1营收最多下降15%。

往期回顾

本作品采用知识共享署名-相同方式共享 4.0 通用许可协议进行许可。
欢迎关注公众号，关注模型压缩、低比特量化、移动端推理加速优化、部署。

业界新闻

论文

开源项目

博文

推荐阅读

目录