爱笑的小姐姐 头像

爱笑的小姐姐

8645 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
18899
最新动态
  • 发布了文章 ·
    EFTViT: 在资源受限的边缘设备上对带遮罩图像的视觉变换器的高效联合训练 !

    联邦学习的研究最近从卷积神经网络(CNNs)转向了视觉 Transformer (ViTs),因为 ViTs 具有更优越的能力。由于 ViTs 缺乏 CNN 固有的 2D 归纳偏差,其训练所需的计算资源更高。然而,如何在资源受限的边缘设备上高效地进行 ViTs 的联邦训练尚未得到社区的探索。在本文中,作者提出了一种基于遮掩图像的分层联邦框架 EF...

    摘要图
  • 发布了文章 ·
    使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介

    博客来源:[链接] 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant 的方法,通过把大矩阵分成 256x256 的小块,然后再把每个小块分成更小的 32x32 的格子来处理数据。这种方法比之前的方案快了将近两倍。另外,文章还介绍了三个新技术:Warp 专门化、...

    摘要图
  • 发布了文章 ·
    武大提出 Point Teacher,两阶段去噪,让小物体点标注检测更可靠 !

    细小物体由于其有限的空间分辨率,往往呈现出点状分布的特点。因此,使用点级监督进行边界框预测自然且成本效益高,成为传统框级监督的一种替代方案。然而,细小物体的小尺寸和缺乏特征使得点标注容易受到噪声的影响,对模型的鲁棒性构成了重大挑战。为应对这些挑战,作者提出了一种端到端的点级监督方法——Point Teacher...

    摘要图
  • 发布了文章 ·
    PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介

    博客来源:[链接] 这里做了个翻译。这篇 PyTorch 的 blog 简要介绍了 CUTLASS 中的 Ping-Pong GEMM kernel 设计,它是专门为 Hopper GPU 架构优化的高性能矩阵乘法实现。通过采用生产者-消费者模式的异步流水线设计,结合 TMA 硬件加速和专门化的 warp 组,实现了对 Tensor Core 的高效利用。文章通过 benchmark 表明,...

    摘要图
  • 发布了文章 ·
    【视觉多模态专栏】理解 Transformer 模型结构

    Transformer 模型,自 2017 年由 Vaswani 等人提出以来,在自然语言处理(NLP)领域引发了革命性的变革。这一模型的核心在于其独特的自注意力机制和多头注意力机制,以及由编码器和解码器构成的精妙架构。模型结构图示如下:

    摘要图
  • 发布了文章 ·
    多视角 Transformer,在图像分类、目标检测以及实例和语义分割实现 Top-1 精度 !

    目前正积极研究如何提升视觉 Transformer (ViTs)的效率。大多数研究都集中在有效 Token 混合器的研究上,忽略了归一化可能带来的潜在关系。为了促进多样化的特征学习,作者提出两个组件:一个称为多视图归一化(MVN)的归一化模块和一个称为多视图 Token 混合器(MVTM)的 Token 混合器。MVN 通过使用可学习加权和结合批量、...

    摘要图
  • 发布了文章 ·
    SGLang 的 Expert Parallel 特性解读

    最近在 SGlang 仓库下做了一段时间的开发和学习,对 SGLang 的一些比较新的 Feature 也开始有一些了解。这篇文章就是尝试来梳理一下 SGLang 中 Expert Parallel 的实现,据我所知 SGlang 应该是开源推理框架中率先实现 Expert Parallel 的。我们可以学习一下它是如何实现的,以及它相比于普通的 EP 主要优化点在哪。SGLa...

    摘要图
  • 发布了文章 ·
    简化 Transformer 结构:在 RTX3090 上实现 CLIP 的轻量级训练!

    对比语言图像预训练(CLIP)因其卓越的零样本性能和优秀的迁移能力而受到了广泛关注。然而,训练这样的大型模型通常需要大量的计算和存储,这对一般用户(拥有消费级计算机)来说是一个障碍。为了应对这一观察,本文探讨了如何在仅使用一块 Nvidia RTX3090 GPU 和一兆字节存储空间的情况下实现竞争性能。一方面,作者简...

    摘要图
  • 发布了文章 ·
    PyTorch 原生 FP8 训练进展

    博客来源:[链接] 。by IBM and Meta 。这里主要是汇总一下 FSDP2 和 FP8 训练相关的内容,目前的实践主要集中在 TorchTitan(DTensor,Async Tensor Parallelism,FP8 Allgather 等等)和 torchao 上面,包括 torch.compile 编译器也在做对应的支持,PyTorch 对于这个工作其实还没做到很稳定,和 Meagtron-LM 的 FP8 类...

    摘要图
  • 发布了文章 ·
    大模型 Scaling Law 的发展历程

    缩放定律(Scaling Law)为深度学习模型的设计和训练提供了理论指导,特别是在构建和训练大规模模型时,如何有效地分配有限的计算资源以获得最佳性能。这些规律也对硬件设计有重要影响,因为它们指导了如何构建能够支持大规模模型训练和推理的硬件系统。近日人工智能界的一场辩论重燃。围绕人工智能模型的一个核心理论的...

    摘要图
  • 发布了文章 ·
    使用 torchtune 把 LLaMa-3.1 8B 蒸馏为 1B

    博客来源:[链接] by Linda Wang, Evan Smothers, Kartikay Khandelwal 这里做了翻译可以帮助读者了解如何对 LLM 做知识蒸馏。总结来说,这篇博客介绍了如何使用 torchtune 将 Llama 3.1 8B 模型蒸馏为 1B 模型,通过知识蒸馏技术提高小模型在指令跟随任务上的性能。文章详细解释了知识蒸馏的工作原理,并展示了在 torch...

    摘要图
  • 发布了文章 ·
    突破无配对难题,N2D3 助力夜间图像日间化 !

    夜间到日间翻译(Night2Day)旨在实现夜间场景的日间视觉。然而,在无配对条件下处理具有复杂降质的夜间图像仍然是一个重大的挑战。之前的方法在同时恢复日间域信息并保留底层语义方面是不够的。在本文中,作者提出了一种 N2D3( 夜间到 Day via Degradation Disentanglement)方法,用于识别夜间图像中的不同降质模式。...

    摘要图
  • 发布了文章 ·
    Triton Kernel 编译阶段

    by Sara Kokkila-Schumacher*, Brian Vaughan*, Raghu Ganti*, and Less Wright+ (*IBM Research, +Meta)

    摘要图
  • 发布了文章 ·
    CUDA-MODE 课程笔记 第17课 GPU 集合通信(NCCL)

    我的课程笔记,欢迎关注:[链接] 。这节课介绍了 NVIDIA 的 NCCL(NVIDIA Collective Communications Library)通信库,重点讲解了其在分布式深度学习中的应用。首先通过 PyTorch DDP 的实例,展示了 NCCL 如何实现高效的梯度同步。接着介绍了下 NCCL 的基本概念、API 使用、通信器初始化方式,并深入分析了 Ring AllRed...

    摘要图
  • 发布了文章 ·
    MWFormer:一种多天气Transformer,实现恶劣天气图像的高效修复 !

    许多计算机视觉应用的基本任务之一是修复在恶劣天气条件下捕获的图像。然而,大多数现有的天气恢复方法只能处理特定类型的退化,这在实际场景中,如雨雪天气或雨雾天气中往往是不够的。为了应对这些情况,作者提出了一种多天气 Transformer,或称为MWFormer,它是一种整体的视觉Transformer,旨在使用单个、统一的架构解...

    摘要图
  • 发布了文章 ·
    超越传统模型:Mask 生成 Transformer 在图像 Token 建模中的创新应用 !

    文本到图像的扩散模型(DMs)发展得飞快,得到了深入的理论探索和实证分析的支持。然而,DMs 与自回归模型(ARMs)之间的差异使得实现视觉和语言生成的统一目标变得复杂。最近, Mask 生成 Transformer(MGT)作为 DMs 和 ARMs 之间的一个有前景的中间体,通过预测随机 Mask 图像 Token (即 Mask 图像建模),将 DMs 的...

    摘要图
  • 发布了文章 ·
    AWQ:模型量化应当关注激活值

    这篇文章是 AWQ(activation-aware weight quantization)的阅读笔记,实际上这篇文章是 9 月 12 日我在从广州飞往洛杉矶的飞机上就开始读的。然而此后,因为学校手续等等事由,没能及时补充上读书笔记,而 SGLang 的文档自然也搁置了许久。无妨,从今天开始便要认真工作了。这篇工作是 MLsys 2024 的 best paper,可见...

    摘要图
  • 发布了文章 ·
    ReID 最新综述!武大等全面总结 Transformer 方法 | IJCV 2024

    【导读】研究人员对基于 Transformer 的 Re-ID 研究进行了全面回顾和深入分析,将现有工作分类为图像/视频 Re-ID、数据/标注受限的 Re-ID、跨模态 Re-ID 以及特殊 Re-ID 场景,提出了 Transformer 基线 UntransReID,设计动物 Re-ID 的标准化基准测试,为未来 Re-ID 研究提供新手册。

    摘要图
  • 发布了文章 ·
    MITA-YOLO: 一种改进的间接视觉 YOLOv8 方法用于目标检测!

    火势可能导致文化遗产建筑遭受严重破坏,因此及时的火警检测至关重要。传统的密集布线和钻孔可能对这些结构造成损害,因此减少摄像头的数量以最小化这种影响具有挑战性。此外,由于噪声敏感性和火灾高发区的管理者专业知识的保护,避免误报至关重要。为了满足这些需求,作者提出了一种基于间接视觉的火警检测方法,称为 ...

    摘要图
  • 发布了文章 ·
    使用 PyTorch 加速生成式 AI 之 GPT Fast

    来源:[链接] 。这篇博客展示了如何仅使用纯 PyTorch 来优化 LLM 推理性能。从基础实现的 25.5 tok/s 开始,文章通过一系列优化手段,包括使用 torch.compile 和静态 kv-cache 减少 CPU 开销、应用 int8 权重量化缓解内存带宽瓶颈、使用推测解码技术让小模型预测大模型输出、采用 int4 量化和 GPTQ 进一步压缩权重,以及...

    摘要图
认证与成就
获得 268 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息