YOLOv9对比图
YOLOv7原作者出手,YOLOv9的性能依旧时一枝独秀:
YOLOv9架构图
YOLOv9的整体架构图如下(根据YOLOv9.yaml绘制):
YOLOv9改进点一览
- YOLOv9从可逆函数角度理论上分析了现有的CNN架构,基于这种分析,YOLOv9作者还设计了PGI和辅助可逆分支,并取得了优秀的结果;
- YOLOv9用到的PGI解决了深度监督只能用于极深的神经网络架构的问题,因此使得新的轻量级架构才更适合落地;
- YOLOv9中设计的GELAN仅使用传统卷积,就能实现比基于最先进技术的深度可分卷积设计更高的参数使用率,同时展现出轻量级、快速和精确的巨大优势;
- 基于所提出的PGI和GELAN,YOLOv9在MS COCO数据集上的性能在所有方面都大大超过了现有的实时目标检测器。
PGI(可编程梯度信息)组件
PGI主要包括三个组成部分,即:
- 主分支
- 辅助可逆分支
- 多级辅助信息
从图中可以看出,PGI推理过程仅使用主分支,因此不需要任何额外的推理成本。
GELAN模块
YOLOv9提出了新网络架构——GELAN。GELAN通过结合两种神经网络架构,即结合用梯度路径规划(CSPNet)和(ELAN)设计了一种广义的高效层聚合网络(GELAN);GELAN综合考虑了轻量级、推理速度和准确度。
GELAN整体架构如上图所示。YOLOv9将ELAN的能力进行了泛化,原始ELAN仅使用卷积层的堆叠,而GELAN可以使用任何计算块作为基础Module。
损失函数与样本匹配
通过上图代码可以看到,样本匹配依旧使用的是TaskAlign样本匹配。和YOLOv8、YOLOE、YOLOv6等算法保持一致;
分类损失:BCE Loss 回归损失:DFL Loss + CIoU Loss
速度&精度对比
可以看出,YOLOv9的性能最为优秀,应该会成为2D检测的新宠。
参考
[1].YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
[2].https://github.com/WongKinYiu/yolov9
作者:小书童
文章来源:集智书童
推荐阅读
- 纽劢提出全新3D车道线检测方法CurveFormer++ | 超越SOTA,解决大曲率车道线检测困境
- 英伟达版ChatGPT来了,PC端部署,很GPU
- OpenAI 视频模型 Sora 科研贡献速览
- 视觉类表面缺陷检测项目相关技术总结
更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。