基于 Transformer 的大型语言模型(LLMs)显著推动了人工智能能力的发展,但由于其高计算需求、内存带宽限制和能耗问题,将其部署在边缘设备上面临巨大挑战。
高效目标跟踪:在杂乱环境中实现对不可预测目标的高效跟踪,解决传统分离流程引入的显著延迟和累积误差问题。
后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章,虽然比较浅显简单,但我自己挺喜欢这种温故而知新的感觉。
现有视觉语言模型(LVLMs)在处理多样化视觉感知任务时依赖任务特定模块和奖励函数,导致可扩展性和泛化能力受限
关键词:MoE、CPU-GPU Scheduling、Inference、Cache Management
机器学习(ML)工作负载在数据中心对 GPU 的需求激增,使得高效利用 GPU 变得至关重要。然而,在满足各个 ML 模型的多样化需求的同时优化资源使用是一个挑战。
近年来,大型语言模型(LLMs)通过优化传统的自然语言处理(NLP)流程,在提升人工智能性能和泛化能力方面取得了显著进展。
最近大型语言模型的进展,激发了人们将它们应用于电子设计自动化(EDA,即利用软件工具辅助设计电子系统,比如芯片设计)任务的兴趣,特别是在寄存器传输级(RTL,这是数字电路设计中的一种抽象层次,介于高层算法和底层门电路之间,用于描述数据在寄存器之间的传输和处理)代码生成方面。
近年来,多模态预训练模型如雨后春笋般涌现,其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力,无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间,为诸多下游任务奠定了坚实的基础。然而,正如“月有阴晴圆缺”,CLIP 在展现其强大通用性的同时,也暴露了其在细粒度理解 (fine-grain...
❝为大型语言模型(LLM)提供服务对于人工智能驱动的应用程序至关重要,但这需要大量的计算资源,特别是在内存带宽和计算吞吐量方面。
驱动大型语言模型(LLM)的 Transformer 架构因其注意力机制而成为基础。随着这些模型的规模不断扩大,导致计算资源需求激增、实时性要求提高,让高效的 GPU 注意力内核对于实现高吞吐量和低延迟的推理变得至关重要。
❝ 扩散模型(DM)在文本到图像生成任务中取得革命性进展,能生成高质量、多样化的图像内容。然而,模型通常具有庞大的计算成本和模型规模,这使得实际应用中难以部署,尤其是在边缘设备上。例如,基于卷积 U-Net 结构的稳定扩散模型(如 Stable Diffusion 1.5、Stable Diffusion XL)在生成图像时需大量计算资源和内存,...
DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM),因其强大的性能而备受赞誉。然而,由于其庞大的规模和独特的架构(采用多头潜在注意力 (MLA) 和混合专家 (MoE)),需要更先进的系统才能高效地大规模服务。在本篇博文中,我们将解释如何将 DeepSeek 的推理系统性能与 SGLang 进行匹配。
本文来自:[链接] ,由 GiantPandaLLM 翻译和 Repost。作者是来自 Linkedin 的 Biaoh He && Qingquan Song .
基于 Transformer 的模型(一种多头自注意力机制的神经网络架构)是高性能大型语言模型(LLMs)的核心,但它们相较于传统的深度神经网络(DNNs)需要更多的算力资源。
人工智能,尤其是大型语言模型(LLMs),已经深刻地改变了我们日常的工作和交流方式。然而,由于计算密集型需求、繁重的内存访问、多样的操作符类型以及编译难题,将大型语言模型部署在资源受限的边缘设备(例如机器人)上仍然是一个挑战。
大家好,好久不见,最近我在细看 vllm v1 和 sglang 的代码,所以接下来会写一系列的文章来介绍它们。
近期,零样本异常检测(ZSAD)已成为一种识别未见类别缺陷的关键范式,无需在训练阶段使用目标样本。然而,现有的 ZSAD 方法由于表示不足,在处理小型和复杂缺陷的边界上存在困难。其中大多数方法使用单一手动设计的 Prompt ,无法适用于多样化的目标和异常。在本文中,作者提出了 MFP-CLIP,这是一种基于 Prompt 的 CLI...
❝ 大型语言模型(LLMs)时代,密集运算(如通用矩阵乘法 GEMM 和多头注意力 MHA)至关重要,且适合用基于 tile 的方法在 GPU 上并行执行。传统 GPU 编程依赖低级接口(如 CUDA 或 SYCL),而 Triton 作为一种新兴的领域特定语言(DSL),提供了更友好且可移植的高层编程方式。当前 Triton 的编译方式存在局限性,本文提...
植物病害严重威胁全局粮食安全,通过降低 Crop 产量和破坏农业可持续性。AI 驱动的自动化分类已成为一种有希望的解决方案,深度学习模型在植物病害识别方面表现出令人印象深刻的性能。然而,由于计算需求高和资源限制,将这些模型部署在移动和边缘设备上仍然具有挑战性,这突显了需要轻量级、准确解决方案以实现可访问的...