爱笑的小姐姐 头像

爱笑的小姐姐

9145 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
18979
最新动态
  • 发布了文章 ·
    高分辨率特征+多分支交互注意力,先验增强攻克噪声模糊,3个数据集mAP全面领跑

    在低光照条件下有效检测交通标志仍然是一个重大挑战。为了解决这个问题,作者提出了 YOLO-LLTS,这是一种专门为低光照环境设计的端到端实时交通标志检测算法。首先,作者引入了高分辨率特征图用于小目标检测(HRFM-TOD)模块,以解决低光照场景中模糊的小目标特征问题。通过利用高分辨率特征图,HRFM-TOD 有效地缓解了传...

    摘要图
  • 发布了文章 ·
    DeepSeek-V3+SGLang: 推理优化

    继续我们的 DeepSeek V3 与 SGLang 集成的技术系列,我们旨在全面概述可用于提高性能和效率的各种优化策略。最终目标是在为 DeepSeek V3 模型系列(包括 R1)提供基于原生优化的竞争性推理性能的同时,培养 LLM 前沿改进的专业知识。作为推理服务引擎,SGLang 与 ML 基础设施堆栈的多个组件交互,为不同级别的优化提供了...

    摘要图
  • 发布了文章 ·
    视觉反馈驱动+动态规则细化,7B模型性能跃升50%,碾压10倍大模型

    大型视觉-语言模型(LVLMs)通常遵循两阶段训练范式——预训练和监督微调。最近,从语言领域衍生出的偏好优化已成为一种有效的后训练强化策略,用于提升 LVLMs 的能力。然而,构建高质量的标注偏好数据以及开发能够模拟这些偏好的鲁棒奖励模型既昂贵又具有挑战性。受此启发,作者提出了 Vision-R1,这是一种新颖的视觉引导...

    摘要图
  • 发布了文章 ·
    TVM Relax:通过跨层次抽象实现动态 shape 的 LLM 高效部署

    动态形状计算已成为现代机器学习工作负载中的关键部分,尤其是在新兴的大语言模型中。这些模型的成功推动了它们在各种后端环境中的普遍部署需求。本文介绍了Relax,一种用于优化端到端动态机器学习工作负载的编译器抽象。Relax 引入了:一种跨层次的抽象,将计算图、循环级张量程序和外部库调用封装在一个统一的表示中。...

    摘要图
  • 发布了文章 ·
    分享一个DeepSeek V3和R1中 Shared Experts和普通Experts融合的技巧

    上周六的时候发现 @DiegoD94 在 vLLM 中尝试对 DeepSeek V3/R1 应用一个 fuse shared experts 到普通 256 个 expert 中的工作 ([链接])。还有一个技术文档:[链接] ,读了一下感觉比较有意义并且看起来对整体的吞吐和 TTFT/ITL 都有比较好的收益。所以利用周末时间在 SGLang 中实现了一下这个工作,由于我们之前在 SGLan...

    摘要图
  • 发布了文章 ·
    Mobile-MMLU:专注真实端侧场景下大模型性能厮杀的 Benchmark 数据集

    大型语言模型(LLMs)的快速发展增加了在移动设备上部署它们以实现设备端人工智能应用的兴趣。移动用户与桌面用户在与 LLMs 交互时存在差异,形成了独特的期望和数据偏差。当前的基准数据集主要针对服务器和桌面环境,缺乏专门针对移动环境的广泛数据集。此外,移动设备在存储和计算资源方面面临严格限制,限制了模型的...

    摘要图
  • 发布了文章 ·
    MQA/GQA/YOCO/CLA/MLKV笔记: 层内和层间KV Cache共享

    本人更多的技术笔记以及 CUDA 学习笔记,欢迎来 CUDA-Learn-Notes(CUDA Learn Notes with PyTorch)查阅。CUDA-Learn-Notes 包括了本人的LLM/VLM文章整理,以及对于SGEMM/HGEMM/GEMV等常见CUDA Kernel的示例实现,目前已经累计  1.5k+ stars,传送门:[链接]

    摘要图
  • 发布了文章 ·
    HPCA2015:基于机器学习的 GPGPU 性能与功耗估计模型

    GPU(图形处理单元)作为现代计算系统中的关键组件,其重要性日益凸显。从智能手机到超级计算机,GPU 已经成为标准配置。它们的设计涵盖了广泛的应用场景,从小型、节能的嵌入式系统芯片(SoC)设计,到大型、高性能的设备,旨在优先考虑计算能力。然而,随着 GPU 设计的复杂性不断增加,如何准确估计其性能和功耗成为了...

    摘要图
  • 发布了文章 ·
    32B 本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

    就在 DeepSeek-V3 更新的同一夜,阿里通义千问 Qwen 又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。同时经过强化学习优化,在三个方面改进显著:回答更符合人类偏好;拥有更强的数学...

    摘要图
  • 发布了文章 ·
    [张量/序列并行]图解 DeepSpeed-Ulysses & Megatron-LM TP/SP

    最近正在为打工人的内卷热潮,略尽自己的一份绵薄之力,已经挺长一段时间没有更新了。正好工作中需要用到各种序列并行的技术,于是打算开几篇小文章来记录一下自己的理解。对比起来 DeepSpeed-Ulysses Sequence Parallelism,并不是十分好理解,还是 Megatron-LM 的 Tensor/Sequence Parallelism 更直观一些。 因此本文...

    摘要图
  • 发布了文章 ·
    LLMPerf:GPU 性能建模与大型语言模型的融合

    在如今这个数据飞速增长的时代,GPU(图形处理单元)已经成为了加速计算的主力军,从人工智能到科学模拟,处处都有它的身影。然而,如何让 GPU 的性能得到最大程度的发挥,却一直是个让人头疼的问题。GPU 性能建模就是设计一套数学工具,来预测一个程序在 GPU 上运行时的表现,比如执行时间、吞吐量等。这对于优化程序性...

    摘要图
  • 发布了文章 ·
    Branch-Merge 蒸馏:大语言模型压缩的革命性突破

    ❝大语言模型(LLMs)在自然语言处理领域取得了显著成就,但其庞大的参数规模给部署和应用带来了挑战。现有的模型蒸馏和迁移学习方法难以达到高精度要求,存在数据选择繁琐、梯度冲突等问题。 为解决这些难题,QiYuan Tech 联合北大提出了 Branch-Merge 蒸馏方法。 该方法将模型训练分为分支和合并两个阶段。在分支阶段,...

    摘要图
  • 发布了文章 ·
    从零开始设计 SGLang 的 KV Cache

    但每次计算的时候,把之前的 k,v 重新计算一次成本太高昂,需要找个地方临时存起来,这就是 KV Cache。

    摘要图
  • 发布了文章 ·
    YOLO LwF 破局持续目标检测 | 自蒸馏+重放记忆双引擎,单阶段检测器告别灾难性遗忘

    实时目标检测器如 YOLO 在训练于大型数据集并经过多个 epoch 后表现出色。然而,在数据增量到达的真实场景中,神经网络会遭受灾难性遗忘,导致先前学习到的知识丢失。为了解决这个问题,先前的研究探索了在持续学习目标检测(CLOD)中的类别增量学习(CIL)策略,其中大多数方法集中于两阶段目标检测器。然而,现有工作...

    摘要图
  • 发布了文章 ·
    OpenManus 首届黑客松正式启动!

    距离 OpenManus 开源第一天到现在,已经过去了 12天。我们收获了大家的关注和过誉的37k stars,我们也一直在不断完善和优化,希望给大家提供一个稳定的版本。

    摘要图
  • 发布了文章 ·
    AI 能看懂细节了!IDEA 研究院多模态目标检测模型 DINO-XSeek,自然语言精准定位目标

    AI 能看懂细节了!IDEA 研究院发布基于多模态大语言模型的目标检测模型 DINO-XSeek。结合视觉与语言理解,只需通过自然语言描述,DINO-XSeek 就能精准定位复杂场景中的目标。比如这张图。消防员手持喷水枪,站在执行任务的消防车云梯上。结果它能精准识别出来这个正在工作的消防员。在人来人往的米兰大教堂前,找到个有...

    摘要图
  • 发布了文章 ·
    轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署

    小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基...

    摘要图
  • 发布了文章 ·
    详解 vLLM 和 SGLang awq dequantize kernel 的魔法

    本片文章解析一下 vLLM/SGLang 中 awq int4 的反量化 kernel,这个 kernel 触发条件为当输入 x 的 shape 的 tokens<256 时,这个时候会先把 int4 的 awq 权重使用awq_dequantize反量化回 float16,然后调用 PyTorch Matmul 执行 float16 的乘法,代码位置见: [链接]

    摘要图
  • 发布了文章 ·
    从 DeepSeek MoE 专家负载均衡谈起

    上周中的时候, 同事给我了一份线上 DeepSeek-R1 推理的 Expert 激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面 10 层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是...

    摘要图
  • 发布了文章 ·
    超越VMamba | JamMa突破特征匹配瓶颈,用50%参数量实现对Transformer的性能反超

    点击下方卡片,关注「集智书童」公众号 点击加入👉「集智书童」交流群 导读 现有最先进的特征匹配器利用Transformer捕获长距离依赖关系,但受限于高空间复杂度,导致训练需求大和推理延迟高。在性能和效率之间取得更好的平衡仍然是特征匹配领域的一个挑战。受Mamba的线性复杂度的启发,作者提出了一种基于Mamba的超轻量级...

    摘要图
认证与成就
获得 289 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息