YOLO(You Only Look Once)是一个著名的物体检测和图像分割模型,由 Joseph Redmon和Ali Farhadi 在华盛顿大学开发。自 2015 年推出以来,它以其高速度和高准确性赢得了广泛的认可。
【导读】六个月的争议后,诺奖级 AI AlphaFold3 开源了。这个在蛋白质结构预测领域掀起波澜的 AI ——期待它的开源推动更多科学家的大量创新。文后附有安装和运行步骤详解哦!
书接上文,今天起来后感谢合作者的点醒,大概发现了如何用 vllm 去 serve embedding model,并且成功利用 serve 了 gte-7b。
这一周完成了 vllm 迁移到 SGLang 的工作,其实迁移本身非常简单,基本上将之前 vllm 的 serving 指令更换为 SGLang 的 serving 指令即可。不过自己在这个过程学会了很多现代的 serving feature,在知乎简单写写这一过程的体验,完全小白视角,甚至漏洞百出,希望大家能在评论区指正。
Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的tp配套使用。
卷积神经网络(CNNs)和视觉 Transformer (ViTs)已成为计算机视觉领域中局部和全局特征提取的必备工具。然而,将这两种架构聚合到现有方法中往往会导致效率低下。为了解决这个问题,作者开发了卷积- Transformer 聚合网络(CTA-Net)。CTA-Net将CNNs和ViTs相结合,其中 Transformer 捕捉长程依赖关系,CNNs提取局部特...
最近一直在搞OpenCV实验大师工作流引擎的C#支持,已经完成大部分C++ SDK导出支持C#调用。总结记录一下遇到各种问题。
来源:[链接] 。下面文章包含2个主题,第一个是FSDP2中开启Float8 All-Gather的Discussion的翻译,第二个是TorchAO中的Float8实现速览的翻译。这篇文档主要介绍了在FSDP2中启用float8 all-gather功能的实现和优化。通过在128个H100 GPU上预训练Llama3-70B模型的验证,相比bfloat16获得了1.50倍的性能提升,其中20%来自fl...
TL;DR: 本文提出了一个名为DocLayout-YOLO的新方法,旨在通过多样化的合成数据和全局到局部的自适应感知来增强文档布局分析。
我的课程笔记,欢迎关注:[链接]本篇文档的来源:[链接] 。这篇文档深入探讨了节点间和节点内网络硬件在大规模机器学习训练中的关键作用。首先强调了网络速度对于充分利用昂贵加速器的重要性,特别是在训练大型语言模型时。随后解释了一系列关键术语和概念,详细介绍了集群网络的三个主要组成部分:前端网络、后端网络和...
这篇论文探讨了知识蒸馏技术在目标检测任务中的应用,尤其是不同蒸馏温度对学生模型性能的影响。通过将YOLOv5s作为教师网络和较小的YOLOv5s作为学生网络,作者发现,随着蒸馏温度的增加,学生的检测准确性逐渐提高,最终在特定温度下实现了mAP50和mAP50-95指标,这些指标优于原始的YOLOv5s模型。实验结果表明,适当的知...
论文标题:Harmonizing Visual Text Comprehension and Generation 论文地址:[链接] 论文源码:[链接]
随着大型语言模型(LLMs)参数的不断增加,数百亿甚至数千亿参数,对专用硬件加速器制造商产生了巨大压力,使后者的创新设计成为人工智能行业中发展最快的领域之一。为了在计算和存储有限的情况下有效且准确地处理LLMs,已经探索了各种方法。在这些方法中,各种量化技术已成为社区的主要焦点,作为减少计算、通信和存储...
本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Transformation)。FlatQuant 通过为每个线性层适配轻量的可学习的仿射变换,有效平滑 LLM 离群值,得到更加平坦的权重和激活值分布,有效降低量化损失。相比此前的量化方法 [1][2],本方...
我的课程笔记,欢迎关注:[链接]来源:[链接] 。这个笔记介绍了大型语言模型推理的各个方面。它首先解释了推理的基本概念,如预填充和解码阶段、在线和离线推理、基础(Grounding)等。然后详细讨论了推理性能的关键指标,包括延迟、吞吐量、第一个Token的时间(TTFT)和每个输出Token的时间(TPOT)。后面还深入探讨了...
博客链接:[链接]。博客由 IBM 的 PyTorch 团队和 Meta 的 PyTorch 团队撰写。在【翻译】使用PyTorch FSDP最大化训练吞吐量的基础上使用torch.compile以及优化dataloader把7B模型的MFU从57%提升到68%,这里只是简要的介绍了一下相关概念,具体细节大家仍然可以到开源代码中查看。[链接] 。最后本文补充了一下这两篇博客...
手腕创伤甚至骨折在日常生活中频繁发生,特别是在儿童中,他们占到了骨折病例的很大比例。在进行手术之前,医生通常会让病人先进行X光成像,并根据X光图像的分析来准备手术。随着神经网络的发展,YOLO系列模型在计算机辅助诊断中的骨折检测中得到了广泛应用,其中YOLOv8模型已经取得了令人满意的结果。将注意力模块应用...
都属于轻量化的模型网络,可以支持部署在CPU达到实时运行,从而降低企业模板模型需要GPU的成本开销,基于这个场景,本人基于OpenCV与OpenVINO封装了YOLO系列(YOLOv5、YOLOv8、YOLOv10、YOLO11)模型的对象检测、实例分割、OBB对象检测、姿态评估 C++ 推理功能、导出DLL以后支持C++与C#调用。封装的与支持的常用主流YOLO...
博客链接:[链接] 。博客由 IBM 的 PyTorch 团队和 Meta 的 PyTorch 团队撰写。目前Torch也持续在训练Infra上面推理,除了DeepSpeed,Meagtron-LM之外,我们也可以选择PyTorch的FSDP来训练更大的例如72B内的模型。这篇博客介绍了基于FSDP如何对7B/13B/34B/70B的模型在A100/H100上高效训练,所有代码均开源在:[链接] 。...
我的课程笔记,欢迎关注:[链接]CUDA-MODE Lecture 15是讲cutlass的cute Layout抽象的,感觉讲的比较差,建议大家直接看reed大佬的cutlass系列博客介绍,接下来会忽略掉这节课的笔记。CUDA-MODE Lecture 16: On Hands profiling是一个关于PyTorch Lighting的工程师根据一个实际的gemma模型微调的程序来进行profile和改进...