爱笑的小姐姐 头像

爱笑的小姐姐

8430 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
18884
最新动态
  • 发布了文章 ·
    LoRA 适配器无缝集成,创新 4 位量化技术,助力扩散模型在边缘设备上的高效部署 !

    扩散模型已经被证明在生成高质量图像方面非常有效。然而,随着这些模型的增大,它们需要更多的内存,并且延迟更高,这给部署带来了巨大的挑战。在这项工作中,作者的目标是通过将扩散模型的权重和激活量化到 4 位来加速扩散模型。在如此激进的 Level 上,权重和激活都是高度敏感的,而传统的用于大型语言模型(如平滑)...

    摘要图
  • 发布了文章 ·
    【ml-engineering 翻译系列】计算加速器之 gpu

    我的课程笔记,欢迎关注:[链接] 本篇文档的来源:[链接] 。这篇文档详细介绍了机器学习加速器的现状和技术细节,涵盖了从 GPU、TPU 到 FPGA 等多种加速器类型,强调了训练和推理的不同计算需求。文中分析了 NVIDIA、AMD、Intel 等厂商的高端加速器规格,特别是 TFLOPS 性能和内存带宽的重要性,并提供了不同加速器的比...

    摘要图
  • 发布了文章 ·
    实时 4K 图像修复:TSFormer 以 3.38M 参数达 40fps 高性能,推动技术落地

    超高分辨率(UHD)图像修复对于需要出色视觉保真度的应用至关重要,然而现有方法往往在修复质量和效率之间存在权衡,限制了其实际部署。在这篇论文中,作者提出了一种名为TSFormer的全功能框架,该框架将可信学习与S化简相结合,以提高 UHD 图像修复的泛化能力和计算效率。关键在于,模型中允许的 Token 移动量非常有限...

    摘要图
  • 发布了文章 ·
    图解 OpenRLHF 中基于 Ray 的分布式训练流程

    本文着重分析 OpenRLHF 中的PPO-Ray 训练架构设计,没有使用过 Ray 的朋友也可以通过本文快速上手,本文共分成四块:

    摘要图
  • 发布了文章 ·
    超越 YOLOv10 和 YOLOv7,专为大规模高分辨率图像处理设计 !

    木材种类识别在各个行业中起着关键作用,从确保木材制品的合法性到推进生态保育工作。本文介绍了 WoodYOLO,一种专门针对显微木材纤维分析的目标检测算法。作者的方法将 YOLO 架构适应于解决大型高分辨率显微图像带来的挑战,以及需要对感兴趣的细胞类型(管状元素)进行高召回率定位的需求。作者的结果表明,WoodYOLO ...

    摘要图
  • 发布了文章 ·
    视觉 Transformer 与目标检测的完美融合:解读 ViTOC 架构 !

    本文提出 ViTOC(视觉 Transformer 和目标感知描述生成器),一种用于图像描述的视觉语言模型,可解决生成描述的准确性和多样性的挑战。与传统方法不同,ViTOC 采用双路径架构,基于视觉 Transformer 和目标检测器,通过可学习的向量有效地融合全局视觉特征和局部目标信息。该模型引入了一种创新的目标感知 Prompt 策略...

    摘要图
  • 发布了文章 ·
    PyTorch 通讯实践

    为了给 OpenRLHF 写一个  weight_update  接口,怜悯给我说,”你只需要学习  torch.dist。”我当时一听,“我怎么记得有个 torch 的接口是计算距离的,就叫做  torch.dist  呢?”然后他说,“实际上是  torch.distributed。”哄堂大笑...

    摘要图
  • 发布了文章 ·
    CUDA-MODE 课程笔记 第 29 课 Triton 内部机制

    我的课程笔记,欢迎关注:[链接] 。这节课详细介绍了 Triton 编译器的内部工作原理。文章首先介绍了 CUDA 编译器(NVCC)的工作流程,然后深入探讨了 Triton 编译器的架构设计,包括其如何将 Python DSL 代码通过多个中间表示(IR)最终编译成 CUDA 可执行文件。课程重点讲解了 Triton 与 MLIR(Multi-Level Intermediat...

    摘要图
  • 发布了文章 ·
    预训练视觉 Transformer (ViT) 的核心:特征表示还是注意力模式?

    传统智慧认为,预训练视觉 Transformer (ViT)通过学习有用的表示可以提高下游性能。这是否真的如此?作者对此进行了调查,发现预训练期间学习的特征和表示并非至关重要。令人惊讶的是,仅使用预训练的注意力模式(即指导信息如何在 Token 之间 Stream )就足以使模型从零开始学习高质量特征并实现可比的下游性能。作者...

    摘要图
  • 发布了文章 ·
    如何正确理解 NVIDIA GPU 利用率的概念

    博客原地址:[链接] 这里做了翻译。通过 nvidia-smi 等工具报告的 GPU 性能指标可能会产生误导。本文将深入探讨这个问题的本质,以提供更深入的理解。

    摘要图
  • 发布了文章 ·
    精确修正 ViT,针对视觉 Transformer 预测错误的纠正策略 !

    模型编辑旨在数据高效地纠正大型预训练模型的预测错误,同时确保对相邻故障的泛化以及对局部性的关注,以最大限度地减小对无关示例的意外影响。尽管在编辑基于 Transformer 的大型语言模型方面取得了显著的进展,但在计算机视觉领域有效编辑视觉 Transformer (ViTs)的方法仍然 largely untapped。在本文中,作者采取初...

    摘要图
  • 发布了文章 ·
    图解大模型训练系列:序列并行 4,Megatron Context Parallel

    Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的 tp 配套使用。

    摘要图
  • 发布了文章 ·
    YOLOv8+PyQT5 打造安全帽检测预警应用

    YOLOv8 对象检测模型基于自定义数据集训工地安全帽检测模型,然后通过工具导出模型为 ONNX,基于 OpenVINO 实现模型推理,完成工人是否佩戴安全帽检测识别,根据检测到的结果统计佩戴与未佩戴人数,在 PyQT5 打造的界面上显示输出检测结果。

    摘要图
  • 发布了文章 ·
    轻量级神经网络模型,嵌入式微小设备也能实时检测 !

    轻量级神经网络的进步已经彻底改变了计算机视觉在各种物联网(IoT)应用中的使用,涵盖了远程监控和过程自动化。然而,对于许多这些应用来说,检测小型物体,这是至关重要的,目前在计算机视觉研究中仍然是一个未探索的领域,尤其是在资源受限的嵌入式设备上,这些设备拥有处理器。为了解决这一问题,本文提出了一种适应...

    摘要图
  • 发布了文章 ·
    YOLOv8 与 YOLO11 自定义数据集迁移学习效果对比

    数据集来自工业相机采集 10 张原始图像,然后通过 OpenMV 工具软件数据增强以后得到 170 张,基于 OpenMV 完成数据标注

    摘要图
  • 发布了文章 ·
    OrientedFormer: 基于 Transformer 的定向目标检测新框架 !

    由于遥感图像中的目标具有多方向分布,定向目标检测是一个具有挑战性的任务。最近,与传统卷积神经网络(CNN)方法相比,端到端 Transformer 基方法通过消除后处理操作器的需求而取得了成功。然而,直接将 Transformer 扩展到定向目标检测存在三个主要问题:1)目标可以任意旋转,需要编码角度、位置和大小;2)定向物体...

    摘要图
  • 发布了文章 ·
    Pytorch轻松实现经典视觉任务

    Pytorch框架现在越来越受到开发者欢迎的深度学习框架,小编也是从tensorflow到pytorch都使用过,让我现在选择我会选择pytorch框架,原因有几下几个:

    摘要图
  • 发布了文章 ·
    CUDA-MODE课程笔记16讲通过CUDA C++核心库把llm.c移植为llm.cpp

    我的课程笔记,欢迎关注:[链接] 。这节课介绍了如何使用 CUDA C++ 核心库(CCCL)将 llm.c 移植为 llm.cpp。CCCL 作为 Thrust、CUB、libcu++ 等库的集合,提供了从高层到底层的完整工具链。课程展示了多个关键改进:将构建系统从 Makefile 迁移到 CMake 以获得更好的跨平台支持;使用 thrust::device_vector 替代原始的内...

    摘要图
  • 发布了文章 ·
    基于 chunked prefill 理解 prefill 和 decode 的计算特性

    这几天尝试读懂 SGLang sever arguments 和 feature,其中非常重要的一环是 Chunked Prefilling。我直接用 Claude 和 GPT 来尝试理解这项技术,发现完全是幻觉。GPT 强调了非常久 chunked prefill 会导致模型的只能关注到当前的 chunk 和之前哪一个 chunk。然而实际上,chunked prefill 在数学上和不做 chunk 是完全等价...

    摘要图
  • 发布了文章 ·
    SGLang 后端原文解析

    众所周知,麻辣系统博大精深。今天浅浅捋一捋 SGLang 实现的后端/ Runtime 框架,前端部分留作后文。

    摘要图
认证与成就
获得 268 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息