Nsight Compute是一个CUDA kernel分析器,它通过硬件计数器和软件收集指标。它使用内置的专业知识来检测kernel常见的性能问题并指出发生这些问题的位置并给出一些解决方法的建议。这一内置规则集和指南就是我们所说的Guided Analysis。下面就结合Lecture1的例子来深入了解下Nsight Compute。
目前 LLM(Large Language Model)从文本补全到内容创作,都展示出了强大的生成能力。然而通过 LLM 生成结构化的数据如 JSON 格式的输出,却仍然是一个有挑战性的任务。
业界广泛采用 FP16、BF16 混合精度(AMP)进行模型训练。AMP 能在下游任务不掉点的前提下提升训练效率、减少显存等资源占用,如今也常用于大模型预训练、微调等任务。
上面三张Slides讲述了运行时间(runtime)和内存使用(memory usage)之间的权衡关系。
在自动驾驶和医学图像等应用中,语义分割起着关键作用。尽管现有的实时语义分割模型在准确性和速度之间取得了不错的平衡,但它们的多路径块仍然影响了整体速度。为了解决这个问题,本研究提出了一个可重参化的双分辨率网络(RDRNet),专门用于实时语义分割。具体来说,RDRNet采用双分支架构,在训练期间使用多路径块,...
近期,LLM 的长文本能力越来越受到关注。LLM 处理长文本的能力可以应用在多个应用场景中,例如 LLM Agent 场景:假设 Agent 会调用不同的工具解决用户给出的任务,所以当用户对 Agent 提出一个任务时,Agent 会先调用一次 LLM,对给定的任务生成一系列的 Funtion Call,然后依次调用不同的 Funtion,Agent 将 Funtion 的...
接下来2张Slides展示了一下书中对CPU,GPU结构的对比,由于这两页Slides很过时,这里就不截图了。
2024/06/17 updates:本文之前题目是《告别DeepSpeed-Ulysses,来用Odysseus:重新审视大模型序列并行技术》,试图对Ulysses进行优化,来设计通信更优的方法。经过网友指正,我对Ulysses的通信开销估计有误,努力都是徒劳。改正后,我发现Ulysses真香。原文我也不删了,读者评论非常有意义。我对有问题的论断做了一些标...
微软最近新发了一篇论文,提出了YOCO(You Only Cache Once,和RetNet似乎是相同的作者),这是一个KV Cache层间共享的新思路。同期MIT-IBM Watson AI Lab也发了一篇类似的论文,提出了CLA( Cross-Layer Attention),即KV Cache跨层推理。简直和YOCO不谋而合,因此本文把这两篇论文的阅读笔记放到一起记录了。
大家好,最近Kimi开源了它的推理架构Mooncake的技术报告,让分离式推理架构的关注度一下升了起来。所以在这个系列中,我打算写一写关于分离式推理架构的一些有趣的优化知识。对于这个架构,我之前也只是了解一些,并没有深入探究过,所以在这个系列中我也和大家一起学习,一起发现好玩的东西。
LlamaGen团队 投稿量子位|公众号 QbitAI只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。目前该模型已经开源,并在GitHub斩获了近900颗星标。扩散模型出现后,取代了自回归方法,一度成为图像生成的主流技术路线。但在ImageN...
注意是“部署”调优,不是“性能”调优!因此本文与底层Kernel如果优化等无关,主要关注应用层面。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解以及一些工具的用法。如果理解有误,欢迎指正。本文内容包括:
低光照场景在现实世界应用中很普遍(例如自动驾驶和夜间监控)。最近,在各种实际用例中的多目标跟踪受到了很多关注,但在暗场景中的多目标跟踪却鲜少被考虑。在本文中,作者专注于暗场景中的多目标跟踪。为了解决数据集缺乏的问题,作者首先构建了一个低光照多目标跟踪(LMOT)数据集。LMOT提供了由作者的双摄像头系统...
最近在整理先前实习做的一些工作,主要是对AI compiler做基于mlir的重构,以下是之前写的compiler frontend的一个比较基础的pass,针对自定义的IR Dialect做bufferization。
本文内容来自《Whole-Function Vectorization》的 Introduction 章节的 SIMD 指令集与数据并行程序小节,为作者的主要工作做知识铺垫,本文不涉及作者的主要工作,仅做 SIMD 概念的基本理解与学习。本文目录:Amdahl's Law 和 Intel MMX2. SIMD、数据并行、向量处理器的关系 2.1 向量处理器的优缺点和限制SIMD 3.1...
然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。
【前言】本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。
基于扩散的图像生成模型近年来通过展示合成高质量内容的能力取得了巨大成功。然而,这些模型包含了大量的参数,导致模型体积显著增大。在多种应用中,尤其是那些在资源受限设备上运行的应用中,保存和传输它们成为一个主要瓶颈。在这项工作中,作者开发了一种新颖的权重量化方法,将Stable Diffusion v1.5中的UNet量化到...
本文主要是对LLM PTQ量化方向的几个经典算法(GPTQ、SmoothQuant、AWQ)的代码实现进行介绍,一方面是为了加深对算法的理解,另一方面也是想看看有什么值得借鉴的地方。
今年二月Sora横空出世,我们正在跑步进入视频生成时代。同时,Sora巨大的部署难题也引爆了长序列的DiT推理方法研究热潮。面对这个问题,我的团队最近在这这方面做了一个非常有趣的工作叫PipeFusion,它可以显著降低DiT模型并行推理的带宽需求,能在PCIe互联的GPU上更有性价比地部署 DiT并行推理。希望它也可以为更大规模...