本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Transformation)。FlatQuant 通过为每个线性层适配轻量的可学习的仿射变换,有效平滑 LLM 离群值,得到更加平坦的权重和激活值分布,有效降低量化损失。相比此前的量化方法 [1][2],本方...
我的课程笔记,欢迎关注:[链接]来源:[链接] 。这个笔记介绍了大型语言模型推理的各个方面。它首先解释了推理的基本概念,如预填充和解码阶段、在线和离线推理、基础(Grounding)等。然后详细讨论了推理性能的关键指标,包括延迟、吞吐量、第一个Token的时间(TTFT)和每个输出Token的时间(TPOT)。后面还深入探讨了...
博客链接:[链接]。博客由 IBM 的 PyTorch 团队和 Meta 的 PyTorch 团队撰写。在【翻译】使用PyTorch FSDP最大化训练吞吐量的基础上使用torch.compile以及优化dataloader把7B模型的MFU从57%提升到68%,这里只是简要的介绍了一下相关概念,具体细节大家仍然可以到开源代码中查看。[链接] 。最后本文补充了一下这两篇博客...
手腕创伤甚至骨折在日常生活中频繁发生,特别是在儿童中,他们占到了骨折病例的很大比例。在进行手术之前,医生通常会让病人先进行X光成像,并根据X光图像的分析来准备手术。随着神经网络的发展,YOLO系列模型在计算机辅助诊断中的骨折检测中得到了广泛应用,其中YOLOv8模型已经取得了令人满意的结果。将注意力模块应用...
都属于轻量化的模型网络,可以支持部署在CPU达到实时运行,从而降低企业模板模型需要GPU的成本开销,基于这个场景,本人基于OpenCV与OpenVINO封装了YOLO系列(YOLOv5、YOLOv8、YOLOv10、YOLO11)模型的对象检测、实例分割、OBB对象检测、姿态评估 C++ 推理功能、导出DLL以后支持C++与C#调用。封装的与支持的常用主流YOLO...
博客链接:[链接] 。博客由 IBM 的 PyTorch 团队和 Meta 的 PyTorch 团队撰写。目前Torch也持续在训练Infra上面推理,除了DeepSpeed,Meagtron-LM之外,我们也可以选择PyTorch的FSDP来训练更大的例如72B内的模型。这篇博客介绍了基于FSDP如何对7B/13B/34B/70B的模型在A100/H100上高效训练,所有代码均开源在:[链接] 。...
我的课程笔记,欢迎关注:[链接]CUDA-MODE Lecture 15是讲cutlass的cute Layout抽象的,感觉讲的比较差,建议大家直接看reed大佬的cutlass系列博客介绍,接下来会忽略掉这节课的笔记。CUDA-MODE Lecture 16: On Hands profiling是一个关于PyTorch Lighting的工程师根据一个实际的gemma模型微调的程序来进行profile和改进...
作者:Adnan Hoque, Less Wright, Raghu Ganti 和 Mudhakar Srivatsa
在开始之前,给大家出几个“高频面试题”,看看你能答上来吗?举例说明 KV Cache 的计算过程为什么要用 KV Cache?它能解决什么问题,代价又是什么?vLLM 里 KV Cache 形影不离的搭档是谁?还记得之前那篇大语言模型推理,用动画一看就懂!的文章吗?是的!我们再次用动画来演示大语言模型的推理过程!几乎所有的大语言模...
对FlexAttention的常见API的使用方法做一个解读,博客来源:[链接] ,在此基础上我对部分代码添加了一些解释,修复了几个代码中的bug并使用PyTorch的nightly版本运行了示例,得到了每个custom attention的输出,展示在了下面的每个示例代码后面。最后还补充了一下torch compile inductor后端中实现FlexAttention的入口的...
PyTorch是当今最受欢迎的AI框架之一。它由Meta(前Facebook)开发并于2017年开源,具有简洁友好的"Python式"接口。这种易用性使其特别适合于研究和开发领域,研究人员可能需要多次迭代新的AI工作负载。然而,纯Python开发也存在一些缺陷,常见的主要缺陷之一就是性能问题。Python通常比诸如C++这样的语言运行速度较慢,尤其是当...
如果不指明opset=11或者12,默认opset=10导出的模型推理时候会非常的慢。指定opset=11以后,导出的模型结构如下:
by Team PyTorch: Horace He, Driss Guessous, Yanbo Liang, Joy Dong
鱼的生长、异常行为和疾病可以通过图像处理方法进行早期检测,这对工厂水产养殖具有重要意义。然而,水下反射和某些鱼类因素(如高相似性、刺激性迅速游泳和多目标遮挡)给多目标鱼跟踪带来了挑战。为了解决这些挑战,本文建立了一个复杂的虚拟多场景跟踪数据集,并提出了一个实时端到端鱼跟踪模型,称为FMRFT。在该模型...
教程链接[链接]torch.compile 的详细示例解析本教程旨在涵盖 PyTorch 编译器的以下几个方面:基本概念(Just-In-Time 编译器、Ahead-of-time 编译器)Dynamo(图捕获,将用户代码分离为纯 Python 代码和纯 PyTorch 相关代码)AOTAutograd(从前向计算图生成反向计算图)Inductor/其他后端(给定计算图,如何在不同设备上...
Overview部分主要介绍了长上下文Transformer模型及其相关应用的几个主题。具体内容如下:
准确的实时目标检测可以增强高级驾驶员辅助系统的安全性能,使其成为驾驶场景中的必不可少组成部分。随着深度学习技术的快速发展,基于卷积神经网络(CNN)的实时目标检测器,如YOLO,已经引起了广泛关注。然而,CNN的局部关注导致了性能瓶颈。为了进一步提高检测器的性能,研究行人引入了 Transformer 自注意力机制,以...
博客链接:[链接]最近了解torch.compile的时候,发现清华推出了一个可以帮助我们理解torch.compile到底对我们的代码做了什么优化的库depyf,这篇教程是这个库的一个简要介绍,前面对这个教程做了一个翻译。后面一部分,我利用cursor来完整展示了如何完整的阅读depfy生成的torch.compile编译产物的例子,我们可以看到torc...
大家好我是🐧小弟,🐦了巨久之后今天继续带来一期基础的深度学习模型部署的入门文章,随着上一期讲完 torch 的一些基础知识之后。这一期带大家来接触一些关于更加深入和规范化的部署相关的知识。
在【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel 中 PyTorch 官方给出了一系列优化 GPTQ INT4 反量化 Triton Kernels 的方法,如 L2 Cache(Block swizzled),向量化读取,SplitK优化改善Warp Stalling,这里单独再利用目前最先进的 o1-preview 模型解析下这个Triton代码实现,看一下目前最先进的模型在阅读 Trit...