1

Happy · 2023年12月13日

38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

SAM轻量化的终点竟然是RepViT + SAM，移动端速度可达38.7fps。

对于 2023 年的计算机视觉领域来说，「分割一切」（Segment Anything Model）是备受关注的一项研究进展。尽管SAM具有各种优势，但速度慢是其不得不提的一个缺点，端侧根本就跑不动。研究者们也提出了一些改进策略：将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

就在今日，arXiv上同时公开两篇SAM轻量化的方法EdgeSAM、RepViT-SAM，更巧合的是两者采用了完全相同的Image Encoder模块：RepViT；两者也都在手机端达到了超快处理速度，值得一提的是：EdgeSAM能在iphone14手机上达到38.7fps的处理速度。

https://arxiv.org/abs/2312.05760
https://github.com/THU-MIG/RepViT

该方案延续了MobileSAM的处理方式，即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

在实现方面，RepViT-SAM引入了移动端新秀RepViT的RepViT-M2.3作为图像编码器提取图像特征；
在老师模型方面，它选用了SAM-ViT-H版本进行蒸馏。
在应用方面，该方案进行了多种任务适配，如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660
https://github.com/chongzhou96/EdgeSAM

相比而言，EdgeSAM方法上会显得更优异：它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏，还仔细分析了不同蒸馏策略并证实：任务不可知的编码器蒸馏难以学习到SAM所具备的全部知识。

有鉴于此，作者提出：循环使用bbox与point提示词，同时对提示词编码器与Mak解码器进行蒸馏，以便于蒸馏模型能够准确的学习到提示词与Mask之间的复杂关系。

在2080Ti上，相比原生SAM，EdgeSAM推理速度快40倍；
在iPhone14上，相比MobileSAM，EdgeSAM推理速度快14倍，达到了38.7fps。

作者：AIWalker
来源：AIWalker

推荐阅读

本文章著作权归作者所有，任何形式的转载都请注明出处。更多动态滤波，图像质量，超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

1 阅读 3k

推荐阅读

人工智能：法国浪漫之都的人工智能时代入门人工智能游戏人工智能的未来浅谈生成式人工智能人工智能“入侵”芯片制造 2024年，人工智能芯片展望

AIWalker

关注数

6206

内容数

201

夯实深度学习知识基础, 涵盖动态滤波，超分辨，轻量级框架等

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息