近年来,大型语言模型(LLMs)通过优化传统的自然语言处理(NLP)流程,在提升人工智能性能和泛化能力方面取得了显著进展。
最近大型语言模型的进展,激发了人们将它们应用于电子设计自动化(EDA,即利用软件工具辅助设计电子系统,比如芯片设计)任务的兴趣,特别是在寄存器传输级(RTL,这是数字电路设计中的一种抽象层次,介于高层算法和底层门电路之间,用于描述数据在寄存器之间的传输和处理)代码生成方面。
近年来,多模态预训练模型如雨后春笋般涌现,其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力,无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间,为诸多下游任务奠定了坚实的基础。然而,正如“月有阴晴圆缺”,CLIP 在展现其强大通用性的同时,也暴露了其在细粒度理解 (fine-grain...
❝为大型语言模型(LLM)提供服务对于人工智能驱动的应用程序至关重要,但这需要大量的计算资源,特别是在内存带宽和计算吞吐量方面。
驱动大型语言模型(LLM)的 Transformer 架构因其注意力机制而成为基础。随着这些模型的规模不断扩大,导致计算资源需求激增、实时性要求提高,让高效的 GPU 注意力内核对于实现高吞吐量和低延迟的推理变得至关重要。
❝ 扩散模型(DM)在文本到图像生成任务中取得革命性进展,能生成高质量、多样化的图像内容。然而,模型通常具有庞大的计算成本和模型规模,这使得实际应用中难以部署,尤其是在边缘设备上。例如,基于卷积 U-Net 结构的稳定扩散模型(如 Stable Diffusion 1.5、Stable Diffusion XL)在生成图像时需大量计算资源和内存,...
DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM),因其强大的性能而备受赞誉。然而,由于其庞大的规模和独特的架构(采用多头潜在注意力 (MLA) 和混合专家 (MoE)),需要更先进的系统才能高效地大规模服务。在本篇博文中,我们将解释如何将 DeepSeek 的推理系统性能与 SGLang 进行匹配。
本文来自:[链接] ,由 GiantPandaLLM 翻译和 Repost。作者是来自 Linkedin 的 Biaoh He && Qingquan Song .
基于 Transformer 的模型(一种多头自注意力机制的神经网络架构)是高性能大型语言模型(LLMs)的核心,但它们相较于传统的深度神经网络(DNNs)需要更多的算力资源。
人工智能,尤其是大型语言模型(LLMs),已经深刻地改变了我们日常的工作和交流方式。然而,由于计算密集型需求、繁重的内存访问、多样的操作符类型以及编译难题,将大型语言模型部署在资源受限的边缘设备(例如机器人)上仍然是一个挑战。
大家好,好久不见,最近我在细看 vllm v1 和 sglang 的代码,所以接下来会写一系列的文章来介绍它们。
近期,零样本异常检测(ZSAD)已成为一种识别未见类别缺陷的关键范式,无需在训练阶段使用目标样本。然而,现有的 ZSAD 方法由于表示不足,在处理小型和复杂缺陷的边界上存在困难。其中大多数方法使用单一手动设计的 Prompt ,无法适用于多样化的目标和异常。在本文中,作者提出了 MFP-CLIP,这是一种基于 Prompt 的 CLI...
❝ 大型语言模型(LLMs)时代,密集运算(如通用矩阵乘法 GEMM 和多头注意力 MHA)至关重要,且适合用基于 tile 的方法在 GPU 上并行执行。传统 GPU 编程依赖低级接口(如 CUDA 或 SYCL),而 Triton 作为一种新兴的领域特定语言(DSL),提供了更友好且可移植的高层编程方式。当前 Triton 的编译方式存在局限性,本文提...
植物病害严重威胁全局粮食安全,通过降低 Crop 产量和破坏农业可持续性。AI 驱动的自动化分类已成为一种有希望的解决方案,深度学习模型在植物病害识别方面表现出令人印象深刻的性能。然而,由于计算需求高和资源限制,将这些模型部署在移动和边缘设备上仍然具有挑战性,这突显了需要轻量级、准确解决方案以实现可访问的...
AI 加速器对于在边缘设备上部署深度学习模型具有积极的影响,而有效的编译器可以大大减少部署模型的工作量。多级中间表示(MLIR)框架因其可重用和可扩展的编译器基础设施 ,为在 AI 硬件上编译和部署 深度学习模型提供了一种通用且高效的解决方案 。
这篇是 Hopper 矩阵乘法系列的最后一篇文章了,欢迎来到我们关于 GEMM(通用矩阵乘法)教程系列的第三部分。在第一 和第二部分 中,我们从单个线程块的视角详细讨论了 GEMM,介绍了 WGMMA matmul 原语、流水线技术以及 warp 专业化。在本部分中,我们将从整个网格的角度考察 GEMM。在这一层面,主要有两类优化方式:(1...
二值化神经网络(BNNs)是将深度神经网络模型部署到资源受限设备上的最有前景的方法之一。然而,对于现代 BNNs(尤其是使用缩放因子和残差连接来最大化网络性能的 BNNs),在编译器和可编程加速器方面的支持非常有限。
文章修改自: [链接]之前解读过两期 LMDeploy Turbomind 里的源码,针对 Hopper 架构。NV 推出了新的指令集。今天我们就来一起看看 TMA
作者推出了 Gemma 3,它是轻量级开源模型家族 Gemma 系列的新成员,参数规模从 10 亿到 270 亿不等。本版本引入了视觉理解能力、更广泛的语言覆盖范围和更长的上下文长度——至少 128K 个 Token 。作者还改变了模型的架构,以减少长上下文下容易爆发的 KV 缓存内存。这是通过增加局部到全局注意力层的比例,并保持局部注意...
专用硬件可以显著加速应用程序。然而,设计专用硬件在人力和时间方面往往成本过高,使其仅适用于那些足够高产量以分摊这些成本的组件。