嵌入式AI简报2021-07-18

导读：本期15条。【新闻】上海海张江——多家GPGPU公司消息：博瀚发布云端 AI 推理芯片性能超 T4 今年 Q4 量产、燧原发布国内最大 AI 芯片、壁仞首款 7nm GPU Q3流片明年上市发布，三星猎户座 2200 将使用 AMD 授权的 GPU 性能或超 Adreno730，AI换脸手机软件刷爆网络免费榜超TikTok/Snapchat；【论文】华为加法网络再升级夯实理论精度再优化，解析 PyTorch节省显存的 2bit 激活压缩技术 ActNN，超越Tiny-YOLOv4的边缘实时检测CSL-YOLO；【开源】视频模型大宝库PyTorchVideo从训练到手机部署，微软发布 SuperBench 项目——着重关注硬件/分布式通讯/模型三大性能；【博文】来自商汤学术的 AI 编译之即时编译技术，MLPerf AI训练芯片最新战况解读，OPEN AI Lab Tengine 框架的插件式硬件后端适配与自动化切图方案，从 Arm 看 RISC-V 处理器架构的技术演变及商业想象，最后是解读高通的 CPU 与 NPU 实现 AI 高清解码的技术步骤。

好了，先是一些热身小新闻ヽ(✿゜▽゜)ノ：

高通：因不满三星制程性能太差，骁龙895+ 或将采用台积电 4 nm，2022 年底推出；
Imagenation：与瑞昱半导体（Realtek）合作，后者已获IMG B系列 BXE-4-32 图形处理器的授权，并将集成至其最新 SoC 中，以用于数字电视市场；
中移芯片 OneChip ：中国移动旗下，中移物联网全资子公司芯昇科技有限公司正式独立运行，进军物联网芯片领域并计划科创板上市；
Oppo：“造芯”首款产品或将是由台积电操刀的 6nm 芯片，可能是一颗简易版的 SoC 或图像信号处理器 ISP 芯片，且部分 IP 技术或将与翱捷科技 ASR 合作。目前 OPPO 做芯片团队已有 1000 人，工程师主要是来自紫光展鋭、华为海思、联发科，带头高管是前联发科 COO 朱尚祖。其芯片团队目标——打造一支 3000 人工程师的团队；
nVIDIA：为顺利收购Arm，英伟达对英国学术及医疗企业开放全英最快超级电脑剑桥-1，还表示将使用Arm IP来设计芯片，并将在英国建立一个超算中心；
CINNO Research：《中国手机通信产业数据观察报告》5月手机芯片出货量表示，海思跌落，紫光展锐暴涨 63 倍以 80 万片的当月手机芯片出货量跻身前五，同比增长了 6346.2%。，联发科成最大赢家；
紫光集团：被申请破产重整后，旗下核心资产紫光股份（000938.SZ）又被传出新动作。知情人士透露阿里巴巴与几家由政府支持的企业正考虑收购云计算基础设施公司紫光股份的股权，出价或达人民币500亿元。注：紫光集团是展锐的股东之一，持股占比35.23%。展锐是依法独立运营的企业法人，自2019年初展锐确立新管理团队后，与紫光集团不存在管理团队及业务的交叉重叠，紫光集团也不直接参与展锐的业务经营、决策。目前我们尚未发现公告事宜会对展锐目前的生产经营活动产生直接影响；
寒武纪：正设计一款算力超 200 TOPS 7nm 智能驾驶芯片，拥有独立安全岛，符合车规级标准，其定位为“高等级自动驾驶芯片”；
瑞芯微：推出TB-RK3568X（Cortex-A55x4，Mali-G52，自研NPU@1TOPS）、TB-RV1126D开发板，面向智慧视觉、云终端、网络视频录像机 (NVR&XVR)、物联网网关、工控、网络附属存储 (NAS)、KTV点唱机等行业应用领域；
格林深瞳：科创板IPO获上交所受理，本次拟募资10亿元。较之「AI四小龙」，格灵深瞳已不在第一阵营，2B 让收入起来但现金回不来，ZF 生意难做。没有主盈利来源的 AI 公司，一定程度上还没有强到可打破既定行业规则；
云从科技：与华为昇腾 A 宣布共同打造企业 A 中枢管理平台。将围绕昇腾芯片打造的 Atlas 硬件，CANN 异构计算架构和 MindSpore AI 计算框架等，实现业务环节的高效自动化和体验提升。

注：个别链接打不开，请点击文末【阅读原文】跳转。

业界新闻

上海瀚博半导体：发布云端 AI 推理芯片，性能超英伟达T4，AMD 背景团队创办，快手投资 | 量子位
摘要：今年4月刚刚5亿元人民币A+轮融资的AI芯片公司瀚博半导体，发布了云端推理AI芯片SV100系列，以及搭载该系列芯片的AI推理加速卡VA1。在发布会上，瀚博半导体创始人兼CEO钱军展示了SV100系列的首款产品——SV102智能视觉芯片，瀚博半导体CTO张磊展示了VA1板卡。瀚博半导体这两款产品主要瞄准了AI领域中成熟的CV市场，主打低延时、多路视频处理能力，相比市面上的GPU在能效上具有优势，可节省60%服务器成本。
其CEO和CTO均来自AMD，公司于2018年2月创立，作为一家新兴AI芯片公司，去年5月就完成了首颗半定制7nm芯片流片，之后又获得了快手等领投的5000万美元的A轮融资。
云端推理芯片SV100系列是瀚博为云端推理而打造的服务器芯片，SV102是该系列的第一款芯片，INT8峰值算力达到200TOPS。SV102支持64路1080p视频解码，最大功耗为75W，接口为PCIe Gen4 x16，采用被动散热。这款芯片在今年6月刚刚测试成功。
搭载SV102的VA1采用单宽半高半长75瓦PCIe卡设计，因此相比一般的GPU卡更节省能耗与空间。张磊表示，在ResNet-50的基准测试中，VA1是英伟达T4吞吐量的2倍以上。**由于VA1节省服务器50%以上TCO，因此在一个2U服务器中，搭载VA1的设备可以解码384路视频，整机算力是T4设备的2.5倍以上，功耗比相同搭载GPU的服务器更低，可节省60%的服务器成本。在视频处理方面，VA1支持64路以上H264、H265或AVS2 1080p解码，分辨率支持高达8K。
SV102芯片与VA1板卡预计将于今年第四季度量产。除了硬件产品外，瀚博也搭建了自己的VastStream AI软件平台，支持PyTorch、TensorFlow等主流AI框架，目前正在与CentOS、Ubuntu、Red Hat、银河麒麟等服务器操作系统进行适配。
上海燧原：发布中国最大AI芯片，顺手拿下四个国内第一，带Benchmark的那种 | 量子位
摘要：邃思2.0的到来，燧原科技其他产品也得到了相应地升级。首先，是云燧T20 训练加速卡。它是面向数据中心的第二代AI训练加速卡，官方介绍是这样的：具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景。除此之外，还有云燧T21训练OAM模组，其是基于OCP（开放计算项目）OAM（开放加速模组）标准设计、兼容OCP OAI标准（开放加速器基础设施）的AI训练加速模组。云燧T21单精度FP32算力最高可达40TFLOPS、TF32算力最高则是160TFLOPS。
最后，燧原科技还升级了它家的驭算TopsRider软件平台：基于算子泛化技术及图优化策略，支持主流深度学习框架下的各类模型训练。利用Horovod分布式训练框架与GCU-LARE互联技术相互配合，为超大规模集群的高效运行提供解决方案。而且编程模型和可扩展算子接口，都是开放的。
最后，还给出了其产品的超摩尔定律：即燧原的每一代产品必须比前一代在“平均业务”中Perf/W:>3X、Perf/$(BOM):>2X、软件后向兼容可靠。
壁仞科技：首款7nm GPU芯片预计今年三季度流片，明年正式发布 | 芯东西
摘要：壁仞科技CTO兼首席架构师洪洲表示，公司首款支持AI训练和推理的7nm芯片进展顺利，壁仞科技的第一款GPU芯片定位高端通用智能计算，具备高性能、可扩展性、可虚拟化等特性，支持云端训练和推理，目前已经到了收尾阶段，预计将在今年流片，性能将与 NVIDIA 的下一代 GPU 相媲美，这颗芯片对标的，是国际GPU霸主英伟达还在酝酿之中的下一代5nm GPU计算芯片。
壁仞科技的策略是，先聚焦几个点上，打一场“不对称的战争”。英伟达GPU并非面向AI训练和推理的最优芯片，而是一个多能力芯片。以A100为例，其双精度对HPC很重要，但对AI加速来说，其在能效比、算力等方面并非最优解。因此壁仞科技选择首先专攻通用AI训练和推理能力，将图形渲染等与AI加速无关的设计剥离掉，更聚焦于在自家芯片上如何合理安排更多的运算和存储单元。等芯片流片后，壁仞科技下一步将重点推进加速芯片商用落地的软件工作。
壁仞科技的第二款芯片已经开始启动架构设计，之后壁仞科技还将逐步推出面向智算中心、云游戏、边缘计算的GPU芯片。
壁仞科技着重优化其芯片的3个亮点特性：通用性、高算力、芯粒（chiplet）技术：

通用性：从兼容CUDA到取代CUDA。新的GPU板卡要无缝地支持CUDA生态，这比更高的算力，更好的能效比更重要。壁仞科技的终极目标，是提供比CUDA更好的自研编程模型。
高算力：融合多种架构的优点。以通用性为根本的同时，在专用领域做深耕、优化，融入多种架构的优点。不拘泥于传统的向量流处理架构，而会在其理念中加入数据流处理单元、近存储计算架构等其他元素，并对重点场景进行特殊优化，使其能处理各种数据类型，从而在同等能耗上，获得比英伟达高好几倍的算力。单颗芯片算力的提升只是一个点，壁仞科技还在其芯片中引入非常高的互连带宽，能做到数百数千的芯片大规模拓展，从而实现集群化大算力。

三星新旗舰Exynos 2200性能前瞻：AMD GPU神助攻 | 电脑爱好者
摘要：三星下一代旗舰级SoC——Exynos 2200，三星准备了四款样片，其中2款采用Cortex-X1做超大核，1款采用最新的Cortex-X2做超大核，还有1款保守的型号则采用Cortex-A78。作为消费者，我们自然是希望Exynos 2200可以直接用上Cortex-X2+Cortex-A710+Cortex-510这种纯ARMv9架构打造的CPU矩阵。
和其他竞品相比，三星Exynos 2200最大的特色，就是集成了来自AMD授权定制的RDNA 2架构GPU。前不久网上还传出了一张三星Exynos处理器运行3DMark Wild Life基准测试的成绩图，截图显示，带有AMD Radeon GPU和Cortex-A77 CPU的Exynos芯片组得分8134分，平均帧率为50FPS。
从Cortex-A77 CPU架构来看，Exynos处理器应该属于还半成品，主要就是用于验证AMD Radeon GPU的可靠性与实力。当这颗GPU与Cortex-X2为代表的ARMv9架构核心搭配时，理论上可释放出更强悍的性能。作为对比，高通骁龙888和麒麟9000的3DMark Wild Life基准测试跑分分别为5720和6677，由此可见AMD Radeon GPU的性能非常给力，肯定不会输给高通下一代的Adreno 730 GPU。
神秘AI换脸手机软件「Voilà AI Artist」入侵全球社交网络 | 新智元
网站：https://www.wemagine.ai/
摘要：在AI算法的加持下，手机APP Voilà 应用只需上传人像照片就能得到四种滤镜风格的图像—— 3D卡通（迪士尼风）、2D卡通、文艺复兴画作和漫画人物。Voilà还有一个名人照片的数据库，在App上搜索就可以直接看到给名人换脸的效果。
Voilà 在推出了大概三个月之后，其IOS版本在多个国家和地区的免费排行榜中夺得第一名，就打败TikTok、Instagram和Snapchat等强敌。安卓方面，Voilà在Google Play商店的下载量已经超过量1000万次，并在26个国家和地区登上了热门排行榜前10名。官方脸书账号在6月13日的时候发文庆祝用户量达到2000万。

论文

[1912.13200] 华为诺亚加法网络再升级：精度提升，可以逼近任意函数 | 机器之心
摘要：深度卷积神经网络的计算常常需要巨大的能耗，因此难以在移动设备上实现。为此学界正在探索研究各式各样的新方法，本文要介绍的这项研究提出了使用加法替代 CNN 中的乘法（卷积），从而极大降低神经网络使用时的能耗。众所周知，乘法的速度慢于加法，但是深度神经网络前向推理过程中的计算包含了大量权重和激活函数之间的乘法。因此，许多论文尝试研究了如何减少神经网络中的乘法计算，从而加快深度学习速度。
在新版本 AdderNet 中，其性能获得显著提升，并具有完善的理论保证。首先，该研究团队证明了具有单个隐藏层 AdderNet 和宽度有界的 AdderNet 可以近似一个紧集中任意勒贝格可积函数。其结果可与传统神经网络的通用近似结果相媲美。该团队还给出了单隐藏层的 AdderNet 的近似边界。其次，为了有效地优化 AdderNet，该团队设计了从 L2 到 L1 过渡的训练方案和自适应学习率扩展，以确保参数的充分更新和更优的网络收敛。
在多个图像分类数据集上测试了新提出的 AdderNet，实验结果表明 AdderNet 的准确率相比于之前版本有着显著地提升，可以在 ImageNet 等大型数据集上取得与传统 CNN 相当的识别准确度。
[2104.14129] 伯克利大学ActNN：节省显存新思路，在 PyTorch 里使用 2 bit 激活压缩训练神经网络 | 机器之心
论文：https://arxiv.org/abs/2104.14129
代码：https://github.com/ucbrise/actnn
摘要：随着超大规模深度学习模型逐渐成为 AI 的趋势，如何在有限的 GPU 内存下训练这些模型成为了一个难题。本文将介绍来自加州伯克利大学的 ActNN，一个基于 PyTorch 的激活压缩训练框架。在同样的内存限制下，ActNN 相关论文已被 ICML 2021 接收为 Long Talk，代码开源于 github。
目前，节省训练内存的方法主要有三类：1. 重计算（Gradient checkpointing/Rematerialization) 2. 使用 CPU 内存进行交换 (swapping) 和 3. 使用分布式训练将 Tensor 分散存储在多个 GPU 上。这三类方法互相不冲突，可以结合使用。大部分机器学习框架对这些方法都提供了一些支持，也有不少相关的论文。但是，想要高效、自动化地实现这些策略并不容易。与已有方法不同，作者提出了 ActNN，一个新的基于压缩的内存节省框架。在提供理论证明的同时基于 PyTorch 提供了一个高效易用的实现：ActNN 可以将 batch size 扩大 6-14 倍，将模型尺寸或者输入图片扩大 6-10 倍。
[2107.04829] CSL-YOLO：超越Tiny-YOLO V4，全新设计轻量化YOLO模型实现边缘实时检测 | 集智书童
论文：https://arxiv.org/abs/2107.04829
摘要：本文提出了一种新的轻量级卷积方法Cross-Stage Lightweight(CSL)模块，从简单的操作中生成冗余特征，在中间展开阶段用深度卷积代替逐点卷积来生成候选特征，CSL模块可以显著降低计算量。在MS-COCO上进行的实验表明，所提出的CSL-Module可以达到近似3x3卷积的拟合能力。
以往的研究表明，使用更少的计算量来生成冗余特征图，可以大大减少FLOPs。CSPNet提出了一种跨阶段求解的方法，GhostNet系统地验证了cheap操作在该问题中的有效性。然而，问题是生成有价值的特征图的主要操作对于边缘计算来说仍然过于复杂。本文建议将输入特征映射划分为2个分支，第1个分支通过像GhostNet那样的cheap操作生成一半冗余的特征图；第2个分支通过轻量级主操作生成另外一半必要的特性映射，然后将2个输出 Concat 在一起。
CSL-Module通过跳过分支的操作生成半冗余特征映射。在主分支上，它不同于CSP模块和Ghost模块。作者建议一个轻量级的主操作来生成另外一半必要的特性映射。在这个分支中设计了一个类似IRB的扩展块，利用跳跃分支的输入特征图和输出特征图，通过深度卷积生成中间候选特征图。这个块的最大优点之一是无需pointwise CNN，大家都知道深度卷积比pointwise CNN的FLOPs要少得多。它不同于IRB。IRB使用逐点卷积来生成候选特征图。这个块的其他优点是它充分考虑了所有当前可用的特性，这可以最小化冗余计算。此外，因为已经有了跳跃分支，主分支只需要生成一半的特性图，显著减少了FLOPs。
总的来说，所提出的CSL-Module通过cheap操作和跨阶段的思想减少了FLOPs。另一方面，特别对主分支进行了轻量级设计。替换了VGG-16中的卷积层来验证CSL-Module的有效性，分别将新的模型记为IRB-VGG-16、Ghost-VGG-16和CSLVGG-16。

开源项目

注：每条内容前缀为github地址的仓库拥有者和仓库名，补全地址后为 github.com/<repo_owner>/<repo_name>。

facebookresearch/pytorchvideo：Facebook AI开源最强全栈视频库：PyTorchVideo，让手机跑SOTA模型快8倍！| 新智元
项目: https://pytorchvideo.org/
摘要：PyTorchVideo的真身是一个视频理解的机器学习库，可以服务于各种代码库，以及各类SOTA视频模型模型和开源视频模型。以及各种视频基础算法，视频数据操作，各类流行视频数据集，视频增广，视频模型加速量化，等等一些列的全栈视频相关内容。PyTorchVideo一并开源了移动端的加速优化，不但提供了手把手的教程，将视频模型一步步优化核心Kernel，量化（quantilize）加速。数倍加速后在移动端实时运行，甚至官方直接暴力放出Android和iOS移动端开源代码，将SOTA的视频模型直接塞到手机里跑着玩玩。在三星Galaxy S10手机上运行的PyTorchVideo加速X3D模型，运行速度快8倍，处理一秒视频大约需要130毫秒。
microsoft/SuperBench：Hardware and Software Benchmarks for AI Systems
项目：https://microsoft.github.io/s...
摘要：SuperBench is a validation and profiling tool for AI infrastructure. It providesmicro-benchmark for primitive computation and communication benchmarking, as well as model-benchmark to measure domain-aware end-to-end deep learning workloads. SuperBench supports:
Provide comprehensive performance comparison between different existing hardware
Provide insights for hardware and software co-design
Distributed validation tools to validate hundreds or thousands of servers automatically
Consider both raw hardware and E2E model performance with ML workload patterns
Build a contract to identify hardware issues
Provide infrastructural-oriented criteria as Performance/Quality Gates for hardware and system release
Provide detailed performance report and advanced analysis tool
AI infrastructure validation and diagnosis
AI workload benchmarking and profiling

博文

Tengine开源说2021系列直播第二课 | OPEN AI LAB
回放：https://live.csdn.net/room/we...\_43476455/lt1qpikr摘要：由“OPEN AI LAB”带来的直播:Tengine开源说2021系列直播第二课，主要介绍Tengine 项目基本情况介绍如支持的后端/模型格式；当前框架针对不同后端的切图自动切图机制详解；Tengine 后端设备插件化设计的对接概述；通过代码走读，掌握 Tengine 适配 TensorRT 和 TIMVX 的细节。
深度学习编译之模型即时翻译技术 | 商汤学术
摘要：如何兼顾灵活动态的算法表达和高效的计算执行，是一个深度学习框架要解决的核心问题。**本文介绍一种以函数为单位的即时翻译技术，在保持整个算法灵活表达的基础上，对特定函数进行一定的静态化，以提升其执行效率。
如何将图执行模式计算效率高和立即执行模式便于开发与调试的优点相结合，是深度学习框架研发的重要研究方向**。诸如TensorFlow，PyTorch等主流的深度学习框架都引入了即时（Just-In-Time）翻译技术，在模型动态执行的过程中记录翻译得到的中间表示。一种思路是将模型动态执行时生成的中间表示按参数签名缓存起来，在以后模型再被具有相同签名的参数调用时，直接使用被缓存的中间表示，从而可以省去解释Python代码的时间，同时还可以利用计算图优化或其他静态优化的方法对被缓存的中间表示做进一步的优化。
以Java为例，Java虚拟机JVM可以通过即时编译技术来加速Java程序的执行。要执行Java源代码，需要先通过编译器将其编译成平台无关的Java字节码（.class文件），再由虚拟机JVM加载字节码文件并进行解释和执行。对于执行频率较低的代码，通过解释器解释执行可以省去即时编译器的编译时间；而对于频繁执行的热点代码，即时编译技术可以显著提高其触发编译之后的代码运行速度。在采用立即执行模式的深度学习框架中，也可以采用类似于即时编译技术的思路。
『豪门盛宴』AI训练芯片和系统最新战况 | StarryHeavensAbove
摘要：MLPerf的工作已经持续了几年，Training的Benchmark是最早开展工作，也是到目前为止最受瞩目的工作。不出意料的话，各个厂商都会“宣称”自己夺得了“xxx的冠军”。0.7版本的结果出来之后，Nvidia做了一个对比图，试图做归一化的比较，但也很难说是非常合理的对比。之前对这个问题的比喻是“关公战秦琼”，这也是MLPerf基准测试面临的困难之一。那么，如果结果很难对比的话，组织和参与这样的“竞赛”的意义是什么呢？
第一，这符合“AI训练军备竞赛”的需要。只要在AI上“大力出奇迹”的规律不变，AI模型的规模就会越来越大。
第二，有利于提升芯片厂商的综合能力。如前面MLPerf的简单介绍，它测试的是软硬件系统的综合能力。如果我们观察华为ResNet的数据，0.7版本使用Tensoflow框架，这次使用的是Mindspore。
第三，Benchmark的设计和讨论本身也可以促进相关技术的进步。设计一个好的Benchmark也是高技术工作，需要对算法和系统软硬件的技术趋势和实现有深入的理解。
变局时代：RISC-V处理器架构的技术演变及商业想象 | 芯片开放社区
摘要：RISC-V架构近几年的迅猛发展，使其在学术界和产业界的热度不断提升。凭借极简、模块化、可拓展等属性，RISC-V有望成为新时代的主导架构。从本期开始，我们将为大家推荐RISC-V知识图谱系列内容，带大家从“应用开发”、“商业”、“技术创新”等不同角度视角认识RISC-V。本文为RISC-V知识图谱系列的开篇之作，主要从技术与商业视角介绍RISC-V架构的起源，分析RISC-V发展如此迅速的原因，并剖析X86架构与ARM架构成功的原因。
ARM成功的主要原因，就是把处理器架构作为一种基础技术被其他的芯片厂商所集成，从而将一堆的芯片公司围绕在自己身边并形成了自己的小伙伴阵营。当然，ARM的成功也得益于历史的大趋势，那就是功能手机的出现，以及功能手机之后智能手机的兴起和普及，商业模式的革命遇上历史的浪潮使得ARM从传统的农村地带逐步进入了城市地带并最终进入了舞台的中央（ARM目前已经杀入了X86的传统强势地盘，包括苹果的M1 PC机芯片以及Ampere/亚马逊等的服务器芯片）。
利用骁龙 888 的 CPU 和 AI 引擎，实现 30+fps 的高清视频解码 | 量子位
摘要：高通 AI 研究院实现智能手机端高效神经编码，其通过解码器架构优化、并行熵解码（PEC）和 AIMET 量化感知训练来实现，在这个过程中有三个重要步骤：

基于一个 SOTA 帧对压缩网络，通过剪枝通道和优化网络操作实现了解码器架构优化，依靠骁龙 888 内置的 AI 引擎进行加速，降低了计算复杂度；
创建一种快速并行化熵解码（fast parallel entropy decoding）算法。该算法可以利用数据级和线程级并行化，从而可以实现更高的熵编码吞吐量。在高通的方案中，骁龙 888 的 CPU 用来处理并行熵解码；
优化后模型的权重和激活量化至 8 比特，然后通过量化感知训练来恢复速率失真带来的损失。这里用到了高通创新中心开源的 AI 模型效率工具包（AI Model Efficiency Toolkit, AIMET），该工具于 2020 年 5 月推出并开源，是一个支持神经网络模型训练的高级量化和压缩技术的库。通过这三个步骤，高通 AI 研究院构建了一个具有高效解码性能的 8 比特模型（8-bit model）。
在 Demo 中，高通 AI 研究院选取了分辨率为 1280×704（接近 720p HD）的视频，通过离线运行解码器网络和熵解码生成压缩的比特流。接着，压缩的比特流通过骁龙 888 移动设备（商用智能手机）上运行的并行熵解码和解码器网络来处理，其中并行熵解码在 CPU 上运行，解码器网络在第六代高通 AI 引擎进行加速。最终，高通 AI 研究院得到了一个神经解码算法，在 1280×704 分辨率的视频中实现了每秒 30 帧以上的解码速度。

往期回顾

本作品采用知识共享署名-相同方式共享 4.0 通用许可协议进行许可。
欢迎关注公众号，关注模型压缩、低比特量化、移动端推理加速优化、部署。

更多嵌入式AI相关技术干货请关注嵌入式AI专栏。

业界新闻

论文

开源项目

博文

推荐阅读

目录