嵌入式AI简报 (2020-01-06)

嵌入式AI简报主要是嵌入式人工智能相关的业界新闻，论文，开源项目及好的文章定期汇总。
微信公众号：NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

业界新闻

苹果5nm A14处理器：和华为抢产能 | 安兔兔

摘要：按照苹果的惯例，明年秋季发布的iPhone 12系列将配备全新的A14处理器，目前产业链已经给出了A14处理器的部分信息。
产业链透露，苹果A14处理器将采用台积电的5nm工艺制造，明年初开始小范围试产，第二季度将正式量产。目前台积电5nm工艺的客户基本上只有苹果和海思，对应的产品分别是A14处理器以及麒麟1000系列SoC。
产能方面，据称目前台积电5nm工艺的良率可达50%以上，预计最快明年第一季度量产，初期月产能5万片，随后将逐步增加到7~8万片。
全新的5nm工艺相比7nm来说有何提升呢？按照台积电官方数据，相较于7nm（第一代DUV），基于Cortex A72核心的全新5nm芯片能够提供1.8倍的逻辑密度、速度增快15%，或者功耗降低30%，同样制程的SRAM也十分优异且面积缩减。

华为中端神U麒麟820，亮相 6nm工艺 | 安兔兔

摘要：SoC命名为麒麟820，将采用三星6nm制程工艺，几乎没有成本限制，将于今年第二季度量产，很可能会集成5G基带。
消息指出，6nm意味着芯片单位空间能容纳更多晶体管数量，相比台积电7nm工艺有着更多的EUV层，提供额外18%的密度改进，理论上同面积芯片的运算能力也就更强。
此前爆料的消息称，麒麟1020定位旗舰级别，代号巴尔的摩(Baltimore)，基于台积电5nm工艺制造，同时内置晶体管继续增加（麒麟990 5G集成103亿个），CPU架构升级到Cortex-A78，相比麒麟990来说性能提升可达50%。

探境量产不到一年，AI语音芯片出货量达百万级 | 雷锋网

摘要：探境科技设计出的非冯诺依曼架构的计算架构——存储构SFA（Storage First Architecture）。SFA架构解决内存墙挑战的方法比较独特，以存储调度为核心的计算架构，数据在存储之间的搬移过程之中就完成了计算，计算对于数据来说只是一种演变。
SFA架构实现的方法是通过硬件、架构调度、数据调度管理等创新。实验数据表明，SFA架构所采用的各种微观和宏观调度算法，比较’类CPU架构‘采用的基于总线和指令集的映射方法，在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下，可以获得8~12倍的利用率收益。”鲁勇表示。
其量化技术，保证即使量化为8比特也不会丢失一定精度下的信息。同时通过软硬结合的方式，甚至可以做到量化到4比特，模型都不需要重新训练。

NVIDIA CEO黄仁勋亮相GTC China：英伟达已售出15亿块GPU，发布TensorRT7 | 新智元

摘要：英伟达GTC China大会，NVIDIA创始人兼CEO黄仁勋分享了英伟达取得的成绩：NVIDIA已经售出15亿块GPU，并发布TensorRT 7，以及支持L2-L5自动驾驶的系统级芯片Orin。此外，NVIDIA与 ARM平台现在可以结合进行高性能计算；TensorRT 7 现在可以加速所有种类模型的线上推理-CNN，Transformer & RNN网络。
Orin 是NVIDIA最新的机器人平台芯片——更快，可以处理更高精度的传感器感知数据，以及拥有世界级的安全和防范能力。全面助力L2-L5自动驾驶，内置全新Orin系统级芯片，晶体管数量达到170亿个，集成NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器，每秒可运行200万亿次计算，几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。

论文

[1911.05289] The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

摘要：深度学习和硬件怎样结合，谷歌人工智能主管Jeff Dean发表了独自署名论文《The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design》，17页pdf论文，长文介绍了后摩尔定律时代的机器学习研究进展，以及他对未来发展趋势的预测判断。
专知译文见：https://mp.weixin.qq.com/s/S5Kjt4tuf_o6o3Qag8sukQ

比手工模型快10~100倍，谷歌揭秘视频NAS三大法宝 | 机器之心

摘要：Tiny Video Networks（TinyVideoNets）有很高的准确率和运行效率，能够以实时或更高的速度高效运行。要想识别大约 1 秒钟的视频片段，在 CPU 上只需要运行 37 至 100 ms，在 GPU 上只需要运行 10 ms，比以前手动设计的网络快了数百倍。
模型架构的设计，是通过演化过程中明确定义模型运行时间，并限制算法探索的搜索空间（同时包括空间和时间分辨率以及通道大小）得到的，实现了性能的提升。这三大法宝对应三篇文章：

EvaNet：第一批进化的视频结构：https://arxiv.org/abs/1811.10636
AssembleNet：建立更强更好的（多流）模型：https://arxiv.org/abs/1905.13209
Tiny Video Networks：最快的视频理解网络：https://arxiv.org/abs/1910.06961

[1908.09791] Once for All: Train One Network and Specialize it for Efficient Deployment

摘要：传统方法需要 AutoML 专门定制化检索网络结构并训练。作者引入 Once for All (OFA) 解决多场景部署问题，将架构搜索与模型训练解耦，只需训练一个 once-for-all 网络来支持预设的多种架构(depth, width, kernel size, and resolution). 给出一个部署场景，根据场景无须训练即可搜索一个子网络满足场景要求。其中，困难在于解开不同子网络间的干扰，为此作者提出 shrinking algorithm，可将训练一个支持1019种子网络的结构，且他们还能保持一样的精度。
在端上设备验证了精度达到了比 NAS 的SOTA更优。其实嘛，主要是更节省训练时的GPU耗时，比方 OFA 在设定了场景数目 N = 40 时，比 ProxylessNAS、FBNet、MnasNet 的训练过程分别快了 14 倍、 16 倍、 1142 倍。

[1912.06218] YOLACT++: Better Real-time Instance Segmentation

摘要：ICCV 2019的实时实例分割YOLACT的改进版：YOLACT++。实时（> 30 fps）实例分割提供了一个简单的全卷积模型，在单个Titan Xp上评估的MS COCO上取得了SOTA结果。此外，仅在一个GPU上训练后即可获得此结果。YOLACT ++模型可以在MS COCO上以33.5 FPS的实现34.1 mAP。
代码：https://github.com/dbolya/yolact

RefineDetLite：腾讯提出轻量级高精度目标检测网络 | 我爱计算机视觉

摘要：腾讯公布了一篇论文RefineDetLite: A Lightweight One-stage Object Detection Framework for CPU-only Devices，提出一种面向CPU设备的轻量级一阶段目标检测网络RefineDetLite，其在MSCOCO 上可以达到精度29.4 AP，同时在Intel 6700 @3.4G HZ 型号CPU上可以跑到130ms/图片（320X320），是目前轻量级通用目标检测网络的佼佼者。
论文：https://arxiv.org/pdf/1911.08855.pdf

开源项目

微软开源自动机器学习工具NNI概览及新功能详解 | 微软研究院AI头条

摘要：微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ，目前已在 GitHub 上获得 3.8K 星，成为最热门的自动机器学习（AutoML）开源项目之一。
作为为研究人员和算法工程师量身定制的自动机器学习工具和框架，NNI 在过去一年中不断迭代更新，我们发布了稳定 API 的 1.0 版本，并且不断将最前沿的算法加入其中，加强对各种分布式训练环境的支持。
最新版本的 NNI 对机器学习生命周期的各个环节做了更加全面的支持，包括特征工程、神经网络架构搜索（NAS）、超参调优和模型压缩在内的步骤，你都能使用自动机器学习算法来完成。
项目地址：https://github.com/microsoft/nni

signatrix/efficientdet: EfficientDet: Scalable and Efficient Object Detection implementation

摘要：Here is our pytorch implementation of the model described in the paper EfficientDet: Scalable and Efficient Object Detection paper:https://arxiv.org/abs/1911.09070

NVIDIA-AI-IOT/torch2trt: An easy to use PyTorch to TensorRT converter

摘要：torch2trt is a PyTorch to TensorRT converter which utilizes the TensorRT Python API. The converter is

Easy to use - Convert modules with a single function call torch2trt
Easy to extend - Write your own layer converter in Python and register it with @tensorrt_converter

博文

深度剖析AI芯片初创公司Graphcore的IPU | StarryHeavensAbove

摘要：2017年我曾经基于Graphcore的CTO Simon Knowles的演讲两次分析了它们的AI芯片。最近，我们看到更多关于IPU的信息，包括来自第三方的详细分析和Graphcore的几个新的演讲。基于这些信息，我们可以进一步勾勒（推测）出IPU的架构设计的一些有趣细节。

卷积神经网络在移动端集成显卡上的加速 | 知乎tvm专栏

摘要：本文谈的是在移动端加速卷积神经网络。虽然AWS是个云服务公司，但只要可能，都希望计算在本地解决。
好处：减小网络带宽压力，避免网络传输时延，用户数据安全。现代终端设备一般用一个片上系统 (SoC)做计算，上面有CPU和集成显卡。
虽然移动端的CPU（多数ARM，少数x86）优化实现相对简单（参见我们对CPU的优化），但此处它并非最佳选择，因为：1）移动端CPU算力一般弱于集成显卡（相差在2-6倍之间）；2）更重要的是，已经有很多程序运行在CPU上，如果将模型推理也放在上面会导致CPU耗能过大或者CPU节流，造成耗电过快同时性能不稳定。所以在移动端进行模型计算，集成显卡是更好的选择。

在 Qualcomm Hexagon DSP 上加速 TensorFlow Lite | TensorFlow

摘要：与 CPU 和 GPU 等其他计算单元一样，数字信号处理器 (Digital Signal Processors, DSP，如 Hexagon DSP）也是大多数现代手机所采用的微处理器。这些芯片专为改善通信和加快多媒体处理而开发，可以大幅提升移动设备 / 边缘设备上的模型推理速度。此外，DSP 通常也比 GPU 更具能效，而这一点对解锁依赖低功耗使用场景的用例至关重要。
TensorFlow Lite Delegate可以在数百万台搭载 Hexagon DSP 的移动设备上利用 Hexagon NN Direct 加速量化模型的运行。借助该方法，MobileNet 和 Inceptionv3 等模型的性能提升了 3 到 25 倍。

ChinaSys 17th论文点评 | 知乎专栏大规模机器学习

摘要：ChinaSys是由国内计算机系统研究人员发起的一个研讨会，从2011年开始持续到现在，通常一年两期，基本的形式是将当年系统领域华人学者的学术工作进行一个集中式的分享，包括已经发表的，已经接受还未发表的，或正在研究的工作，形式上比较casual，旨在通过研讨会的形式促进国内系统方向研究人员的交流，国内的系统领域的学术研究进展成长很快，2011年全国一年发表在系统顶会的论文不超过十篇，而这一次ChinaSys评选的优秀博士和优秀研究员，手上的顶会论文都已经超过了5篇，并且这次研讨会上介绍的工作，基本上全部是在一流系统会议上已经被accept的工作，由此也可以看到国内系统方向的工作进展。

模型加速5个方法供参考附代码 | AI科技大本营

摘要：诸如权重稀疏化等模型裁剪方法的核心思路是去掉那些不重要的权重和链接，整个网络的权重变少了，那么模型自然而然也就变小了，但是这种方法会带来比较明显的信息丢失，虽然我们会在最后的性能与模型体积中采取一种折中的方案，但性能的损失最后还是不可避免的。在下面的内容中，我们就和大家讨论并分享工业界的权重压缩，deepCompression，二值化，三值化，DoReFa-net。

本作品采用知识共享署名-相同方式共享 4.0 通用许可协议进行许可。
欢迎关注公众号，关注模型压缩、低比特量化、移动端推理加速优化、部署。

业界新闻

论文

开源项目

博文

推荐阅读

目录