移动端GPU在深度学习网络前向推理中占据着重要的地位,硬件本身具备高性能低功耗,适应大规模密集型计算等优势。普及已久的OpenCL与新兴的Vulkan也为其提供了完整的并行编程解决方案。不断推进深度学习前向推理的GPU支持与优化是业界的共同目标。
由于资源限制严重,必须在苛刻的功耗要求下使用资源有限的硬件,因此在移动和嵌入式设备上进行推理颇有难度。在本文中,我们将展示 TensorFlow Lite (TFLite) 在内存使用方面的改进,更适合在边缘设备上运行推理。
导读:本次17条。【新闻】nVIDIA下一代GPU Hopper开启5nm,GraphCore IPU-M2000 benchmark发布性能领先nVIDI A100,谷歌MediaPipe Holistic实现移动端多模型同时工作;【论文】微软RNNPool在内存256KB设备上取代CNN的人脸检测,商汤手机端实时单目三维重建系统Mobile3DRecon,基于Hessian矩阵的全自动混合精度量化方法HA...
导读:本次20条。【新闻】苹果自研ARM架构M1登场,Imagination发布新AI加速器IP IMG Series4 NNA,AMD推出Matrix Core对标英伟达Tensor Core,TensorFlow Mac深度优化版可训练;【论文】性能精度双超MBV3且6MFLOPs的MicorNet,BERT压缩之大小仅为BERT-large的16%的Bort,基于Transformer 420FPS的车道线检测算法,Transf...
几何计算是本次发布中大规模的框架重构。它将大部分算子的计算过程中与硬件后端无关部分(形状计算和几何计算)剥离出来,极大地降低了异构后端算子实现的成本。基于几何计算,MNN重写了目前所有的硬件后端。由于引入几何计算之后GPU后端算子的覆盖率的增加,在阿里巴巴内部的业务模型中,MNN GPU后端性能普遍获得约20%...
导读:本次19条。「新闻」华为麒麟9000处理器SoC,安谋中国发布周易Z2 AIPU单核算力4TOPS,Arm开发者峰会揭晓未来两代Cortex CPU架构,三星打造5nm Exynos1080高端SoC,谷歌Coral Mini开始预定,Graphcore发布Poplar SDK 1.3;「论文」比EfficientNet快3.5倍的LambdaResNets实现视觉任务新SOTA,针对Transform极低位数的...
导读:本次20条。「新闻」9月15日起华为芯片禁令全面生效、苹果发布 5nm A14 处理器当世无敌!性能介于麒麟990和麒麟9000的9000E曝光、NVIDIA发布安培架构的RTX 30系列显卡支持TF32/BF16/FP16、地平线发布旭日3芯片2.5W功耗算力达5TOPS、耐能发布1.2W功耗算力达1.5TOPS新一代AI芯片;「论文」旷视商用端侧Raw图像降噪方...
骁龙(SnapDragon)神经处理引擎(SNPE)是一个针对高通骁龙加速深层神经网络的运行时软件,高通在其官网都提供了下载。
导读:本期18条。【新闻】美商务部再发声明欲断华为芯片后路,IBM首款7nm EUV商用处理器POWER10面世增加AI推理指令,首发于iPhone12的苹果A14与酷睿i9的性能对比,高通次旗舰骁龙860/875 Lite曝光,iOS AR APP让纸片人动起来;【论文】针对arm/gpu的2到8bit卷积优化效果拔群,模式化稀疏度权重剪枝并开发基于AI编译的手...
转载自:NeuralTalk作者:PAI团队 进入正题前,还是先打个招聘小广告,欢迎对我们工作感兴趣的同学联系我们,细节参见这里,可以直接邮件muzhuo.yj@alibaba-inc.com。
测试标准基于:embedded-ai.bench Spec(ADB Shell环境 benchmark公约,见后文【本次测试标准】);
导读:本次18条。【业界新闻】CoreML更新支持更多模型且CPU支持fp16,SoC方面联发科发布中端芯片天玑720,三星猎户座1000首次曝光将搭载AMD GPU等,Adreno GPU驱动升级Vulkan性能再提升,MLPerf发布含谷歌第四代TPU与NVIDIA A100性能比较,TensorFlow曝用户自定义层无法更新bug;【论文】韩松团队提出MCUNet及相应设计架...
订阅极术公开课,即时获取最新技术公开课信息
Arm相关的技术博客,提供最新Arm技术干货,欢迎关注
前阵子看到Tengine为OpenCV4.3版本贡献了ARM CPU底层汇编代码,加速深度学习计算。最近也看到Tengine的不少同学在做相关PR。可能有小伙伴不了解Tengine。根据ARM官网也有介绍Tengine,其介绍如下。Tengine 是OPEN AI LAB 针对前端智能设备开发的软件开发包,核心部分是一个轻量级,模块化,高性能的AI 推断引擎,并支持...
2019年已经过半,今年人工智能-计算机视觉方向在边缘计算、移动终端、嵌入式终端的产品落地进入白热化阶段。终端落地的很大一个指标依旧是Inference Time,网络模型压缩的需求越来越大,其中网络模型量化(低比特量化)开始大规模在终端设备上部署并取得了较好的市场认可,同时上游芯片设计公司依次推出了针对低比特量化...
导读:本次内容20条。「业界新闻」Face++即将开源自己的深度学习框架,国产5G SoC新星虎贲T7520都值得关注,两家国外AI芯片边缘端创业公司,多多少少都与Cortex-M系列有关。压缩剪枝相关的「论文」有两篇,其中一篇采取无训练的剪枝非常有创意,还有篇「博文」讲的压缩实战很有意思,「博文」部分的《春秋到战国—论Nerva...
Paddle Lite为Paddle-Mobile的升级版,定位支持包括手机移动端在内更多场景的轻量化高效预测,支持更广泛的硬件和平台,是一个高性能、轻量级的深度学习预测引擎。作者:开心的派大星首发微信公众号:NeuroMem转自:[链接]
本文想把有关Winograd这个算法背后所涉及到的数学知识用比较通俗的方式给读者描述一遍,并且在这的过程中也会添加一些我个人的理解。作者:梁德澎首发知乎:[链接]