爱笑的小姐姐 头像

爱笑的小姐姐

7875 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
18749
最新动态
  • 发布了文章 ·
    CUDA-MODE 第一课课后实战(上)

    Nsight Compute是一个CUDA kernel分析器,它通过硬件计数器和软件收集指标。它使用内置的专业知识来检测kernel常见的性能问题并指出发生这些问题的位置并给出一些解决方法的建议。这一内置规则集和指南就是我们所说的Guided Analysis。下面就结合Lecture1的例子来深入了解下Nsight Compute。

    摘要图
  • 发布了文章 ·
    一文弄懂 LLM 结构化数据生成原理

    目前 LLM(Large Language Model)从文本补全到内容创作,都展示出了强大的生成能力。然而通过 LLM 生成结构化的数据如 JSON 格式的输出,却仍然是一个有挑战性的任务。

    摘要图
  • 发布了文章 ·
    FP8 低精度训练:Transformer Engine 简析

    业界广泛采用 FP16、BF16 混合精度(AMP)进行模型训练。AMP 能在下游任务不掉点的前提下提升训练效率、减少显存等资源占用,如今也常用于大模型预训练、微调等任务。

    摘要图
  • 发布了文章 ·
    CUDA-MODE课程笔记 第6课: 如何优化PyTorch中的优化器

    上面三张Slides讲述了运行时间(runtime)和内存使用(memory usage)之间的权衡关系。

    摘要图
  • 发布了文章 ·
    RDRNet 如何优雅地实时语义分割 ?

    在自动驾驶和医学图像等应用中,语义分割起着关键作用。尽管现有的实时语义分割模型在准确性和速度之间取得了不错的平衡,但它们的多路径块仍然影响了整体速度。为了解决这个问题,本研究提出了一个可重参化的双分辨率网络(RDRNet),专门用于实时语义分割。具体来说,RDRNet采用双分支架构,在训练期间使用多路径块,...

    摘要图
  • 发布了文章 ·
    [LLM性能优化]聊聊长文本推理性能优化方向

    近期,LLM 的长文本能力越来越受到关注。LLM 处理长文本的能力可以应用在多个应用场景中,例如 LLM Agent 场景:假设 Agent 会调用不同的工具解决用户给出的任务,所以当用户对 Agent 提出一个任务时,Agent 会先调用一次 LLM,对给定的任务生成一系列的 Funtion Call,然后依次调用不同的 Funtion,Agent 将 Funtion 的...

    摘要图
  • 发布了文章 ·
    计算和内存基础(基于PMPP 书的第4-5章)

    接下来2张Slides展示了一下书中对CPU,GPU结构的对比,由于这两页Slides很过时,这里就不截图了。

    摘要图
  • 发布了文章 ·
    我爱DeepSpeed-Ulysses:重新审视大模型序列并行技术

    2024/06/17 updates:本文之前题目是《告别DeepSpeed-Ulysses,来用Odysseus:重新审视大模型序列并行技术》,试图对Ulysses进行优化,来设计通信更优的方法。经过网友指正,我对Ulysses的通信开销估计有误,努力都是徒劳。改正后,我发现Ulysses真香。原文我也不删了,读者评论非常有意义。我对有问题的论断做了一些标...

    摘要图
  • 发布了文章 ·
    KV Cache优化: 层内和层间KV Cache共享

    微软最近新发了一篇论文,提出了YOCO(You Only Cache Once,和RetNet似乎是相同的作者),这是一个KV Cache层间共享的新思路。同期MIT-IBM Watson AI Lab也发了一篇类似的论文,提出了CLA( Cross-Layer Attention),即KV Cache跨层推理。简直和YOCO不谋而合,因此本文把这两篇论文的阅读笔记放到一起记录了。

    摘要图
  • 发布了文章 ·
    图解大模型计算加速系列:分离式推理架构1,从DistServe谈起

    大家好,最近Kimi开源了它的推理架构Mooncake的技术报告,让分离式推理架构的关注度一下升了起来。所以在这个系列中,我打算写一写关于分离式推理架构的一些有趣的优化知识。对于这个架构,我之前也只是了解一些,并没有深入探究过,所以在这个系列中我也和大家一起学习,一起发现好玩的东西。

    摘要图
  • 发布了文章 ·
    Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

    LlamaGen团队 投稿量子位|公众号 QbitAI只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。目前该模型已经开源,并在GitHub斩获了近900颗星标。扩散模型出现后,取代了自回归方法,一度成为图像生成的主流技术路线。但在ImageN...

    摘要图
  • 发布了文章 ·
    TensorRT-LLM部署调优-指北

    注意是“部署”调优,不是“性能”调优!因此本文与底层Kernel如果优化等无关,主要关注应用层面。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解以及一些工具的用法。如果理解有误,欢迎指正。本文内容包括:

    摘要图
  • 发布了文章 ·
    北理工提出 LTrack 双摄像头系统 | 专注于暗场景多目标跟踪,自动驾驶和夜间监控的福音!

    低光照场景在现实世界应用中很普遍(例如自动驾驶和夜间监控)。最近,在各种实际用例中的多目标跟踪受到了很多关注,但在暗场景中的多目标跟踪却鲜少被考虑。在本文中,作者专注于暗场景中的多目标跟踪。为了解决数据集缺乏的问题,作者首先构建了一个低光照多目标跟踪(LMOT)数据集。LMOT提供了由作者的双摄像头系统...

    摘要图
  • 发布了文章 ·
    MLIR_对自定义IR Dialect编写bufferization pass

    最近在整理先前实习做的一些工作,主要是对AI compiler做基于mlir的重构,以下是之前写的compiler frontend的一个比较基础的pass,针对自定义的IR Dialect做bufferization。

  • 发布了文章 ·
    SIMD 指令集与数据并行程序

    本文内容来自《Whole-Function Vectorization》的 Introduction 章节的 SIMD 指令集与数据并行程序小节,为作者的主要工作做知识铺垫,本文不涉及作者的主要工作,仅做 SIMD 概念的基本理解与学习。本文目录:Amdahl's Law 和 Intel MMX2. SIMD、数据并行、向量处理器的关系    2.1 向量处理器的优缺点和限制SIMD    3.1...

    摘要图
  • 发布了文章 ·
    手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍

    然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。

    摘要图
  • 发布了文章 ·
    60行代码加速20倍 NEON实现深度学习OD任务后处理绘框

    【前言】本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。

    摘要图
  • 发布了文章 ·
    BitsFusion 权重量化方法,使 UNet 模型体积减少一半,所有评估中超过了全精度模型 !

    基于扩散的图像生成模型近年来通过展示合成高质量内容的能力取得了巨大成功。然而,这些模型包含了大量的参数,导致模型体积显著增大。在多种应用中,尤其是那些在资源受限设备上运行的应用中,保存和传输它们成为一个主要瓶颈。在这项工作中,作者开发了一种新颖的权重量化方法,将Stable Diffusion v1.5中的UNet量化到...

    摘要图
  • 发布了文章 ·
    GPTQ & SmoothQuant & AWQ 代码解析

    本文主要是对LLM PTQ量化方向的几个经典算法(GPTQ、SmoothQuant、AWQ)的代码实现进行介绍,一方面是为了加深对算法的理解,另一方面也是想看看有什么值得借鉴的地方。

    摘要图
  • 发布了文章 ·
    PipeFusion:如何用PCIe互联GPU 低成本并行推理扩散模型

    今年二月Sora横空出世,我们正在跑步进入视频生成时代。同时,Sora巨大的部署难题也引爆了长序列的DiT推理方法研究热潮。面对这个问题,我的团队最近在这这方面做了一个非常有趣的工作叫PipeFusion,它可以显著降低DiT模型并行推理的带宽需求,能在PCIe互联的GPU上更有性价比地部署 DiT并行推理。希望它也可以为更大规模...

    摘要图
认证与成就
获得 268 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息