爱笑的小姐姐 头像

爱笑的小姐姐

8915 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
18943
最新动态
  • 发布了文章 ·
    从 DeepSeek MoE 专家负载均衡谈起

    上周中的时候, 同事给我了一份线上 DeepSeek-R1 推理的 Expert 激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面 10 层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是...

    摘要图
  • 发布了文章 ·
    超越VMamba | JamMa突破特征匹配瓶颈,用50%参数量实现对Transformer的性能反超

    点击下方卡片,关注「集智书童」公众号 点击加入👉「集智书童」交流群 导读 现有最先进的特征匹配器利用Transformer捕获长距离依赖关系,但受限于高空间复杂度,导致训练需求大和推理延迟高。在性能和效率之间取得更好的平衡仍然是特征匹配领域的一个挑战。受Mamba的线性复杂度的启发,作者提出了一种基于Mamba的超轻量级...

    摘要图
  • 发布了文章 ·
    实例特定 Bottleneck+ 非对称解耦 Head,边缘设备精度突破新高度

    本文针对传统 Bottleneck 结构(由于过度强调批处理统计导致实例可区分性降低)和解耦 Head (计算冗余)在目标检测框架中的固有局限性,提出了两个新颖的模块:全通道全局自注意力的实例特定 Bottleneck (ISB)和实例特定非对称解耦 Head (ISADH)。ISB 模块创新性地重构特征图,通过批处理统计和实例特定特征的协同...

    摘要图
  • 发布了文章 ·
    SGLang MLA 实现解析

    上回讲到 SGLang 中的 DP MLA 特性  SGLang DP MLA 特性解读 ,这里简单回顾一下核心 idea。之所以在 MLA 中使用 DP 的方式是因为 MLA 在存储 KV Cache 的时候对于一个 token 存储的 shape 是(1, 1, kv_lora_rank+qk_rope_head_dim),而不是普通 MHA 下的(1, kv_head_num, head_dim)。这就导致如果按照以前的 TP 并行方...

    摘要图
  • 发布了文章 ·
    美团基于 SGLang 提供 INT8 无损满血版 DeepSeek R1 部署方案

    满血版 DeepSeek R1 部署A100,基于 INT8 量化,相比 BF16 实现50%吞吐提升!

    摘要图
  • 发布了文章 ·
    革新文本-图像检索,视觉 Prompt 预测+轻量训练性能超 BLIP2

    本文的目标是提升文本到图像检索的性能。为此,作者提出了一种新的框架,该框架能够提升大规模预训练视觉语言模型的表现,使其能够用于文本到图像的重排序。该方法,增强语言-图像预训练(ELIP),利用文本 Query 来预测一组视觉 Prompt ,以条件化 ViT 图像编码。ELIP 可以轻松应用于常用的 CLIP/SigLIP 以及最先进的 B...

    摘要图
  • 发布了文章 ·
    ViT架构革新,Jumbo增强CLS Token,小模型性能涨13.5%,跨模态推理高效无损

    作者提出了一种对全局处理视觉Transformer(ViT)的简单增强方法,以在保持吞吐量的同时提高准确性。ViT+Jumbo创建了一个更宽的CLS Token ,该 Token 在注意力之前被分割以匹配 Patch Token 宽度,然后进行自注意力处理并重新组装。在注意力之后,Jumbo对此 Token 应用了一个专用且更宽的FFN。Jumbo在ImageNet-1K上显著...

    摘要图
  • 发布了文章 ·
    分析一下 EP 并行和 DeepSeek 开源的 DeepEP 代码

    被好几个团队的人追着要渣 B 来分析一下 DeepEP 的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习.   但是还有一些硬件上的缺陷, 在 DeepSeek-V3 的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈 EP 并行, 并进一步分析一下这份出色的工作. 顺便展开讨论一下 Scal...

    摘要图
  • 发布了文章 ·
    可学习AttentionPredictor:实现16倍KV缓存压缩与Attention加速

    以大模型百万分之一参数量的预测小模型,在 LongBench 数据集上使用 4%的 KV Cache 达到 Full Cache 99%的模型准确率。

    摘要图
  • 发布了文章 ·
    NV GPU Debug 实用指南(如何监控真实 GPU 利用率,正确判断是否重启 GPU 等)

    Xid 错误的识别和处理:文档详细解释了如何通过系统日志识别 Xid 错误,以及如何使用 nvidia-smi 命令查看错误计数和具体情况。

    摘要图
  • 发布了文章 ·
    苹果把台灯做成机器人!能用动作表达情绪,重新定义机器人交互

    苹果首款机器人(试验版),居然是个台灯??前段时间苹果布局机器人的消息频频传出,但究竟要做个什么样式儿的一直没有定论。苹果最新论文揭露,或许它们看起来不会像机器人,或许它们将无处不在!苹果放出来一个台灯机器人以做展示,火遍 reddit、X 等平台。这个台灯那是相当灵活,它摆脱了机械式的动作,甚至能够通过...

    摘要图
  • 发布了文章 ·
    YOLOv12正式开源 | 中科院大学携LLM Trick让YOLO家族改头换面后依然是效率之王

    提升 YOLO 框架的网络架构一直至关重要,尽管注意力机制在建模能力方面已被证明具有优越性,但长期以来一直专注于基于 CNN 的改进。这是因为基于注意力的模型无法与基于 CNN 的模型的速度相匹配。本文提出了一种以注意力为中心的 YOLO 框架,即 YOLOv12,该框架在匹配先前基于 CNN 的模型速度的同时,利用了注意力机制的...

    摘要图
  • 发布了文章 ·
    MicroViT革新轻量视觉Transformer:3.6倍速+40%能效提升,突破边缘部署极限

    视觉 Transformer(ViT)在各种计算机视觉任务中展现了最先进的性能,但其高计算需求使其在资源有限的边缘设备上不切实际。本文提出了 MicroViT,这是一种轻量级的视觉 Transformer 架构,通过显著降低计算复杂度,同时保持高精度,针对边缘设备进行了优化。MicroViT 的核心是高效单头注意力(ESHA)机制,该机制利用分...

    摘要图
  • 发布了文章 ·
    碾压YOLO系 | Fast-COS横扫BDD100K/TJU双冠,边缘端实时推理,效率起飞

    感知系统是自动驾驶系统的核心元素,在确保安全方面发挥着关键作用。驾驶场景感知系统本质上是一个目标检测任务,需要在准确性和处理速度之间取得平衡。许多当代方法侧重于提高检测精度,但往往忽视了在计算资源有限时实时检测能力的重要性。因此,研究针对驾驶场景的高效目标检测策略至关重要。

    摘要图
  • 发布了文章 ·
    基于 Yolact 的检测优化,训练优化不损推理效率,解决边缘模糊问题 !

    确保自主驾驶列车在铁路表面的障碍物避免至关重要,其第一步是分割铁路区域。作者选择在 Yolact 的基础上进行工作。为了解决模型预测的铁路边缘模糊问题,作者将边缘运算符提取的边缘信息纳入原始 Yolact 的损失函数,以强调模型对铁路边缘的重视。此外,作者应用了盒滤波器平滑由线性插值引起的 GT 边缘的破碎。由于边...

    摘要图
  • 发布了文章 ·
    SGLang DP MLA 特性解读

    我的课程笔记,欢迎关注:[链接] 。这里简要解析了一下 SGLang v0.4 版本中针对 DeepSeek 模型引入的 MLA Data Parallelism Attention 优化。这个优化可以通过 Data Parallelism 的方式共享 KV Head 来避免在每个 TP Worker 中都重复计算 KV Head,这对于 DeepSeek 系列模型来说非常有用,因为它的 MLA KV Head 无法使用...

    摘要图
  • 发布了文章 ·
    推理模型新路线开源!与 DeepSeek 截然不同,抛弃思维链不用人类语言思考

    抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

    摘要图
  • 发布了文章 ·
    浅析主流 Alignment 算法与 NeMo-Aligner 框架

    今年 10 月在费城开 COLM 的时候,我有幸见到了 NVDA 两篇工作的 post,一篇是 RULER,现在已经是 long context 几乎必测的 benchmark;另一篇便是今天要讨论的工作——NeMo-Aligner。

    摘要图
  • 发布了文章 ·
    LLM 与 BiomedCLIP 携手提升图像 Prompt 学习的准确性与泛化性 !

    最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。

    摘要图
  • 发布了文章 ·
    MoE 之年的总结和 MoE 推理优化的一些认识

    首先我会简单回顾下 2024 年的学习收获,然后我会聊一聊我在 SGLang 中度过的几个月业余开源开发的经历。无论是最近火遍全球的 DeepSeek V3/R1,还是在 2024 年各家厂商发布的重量级 MoE 模型都将 MoE 架构重新带上了历史舞台,所以我个人把 2024 年定义为 MoE 之年。因此,最后我会讨论一下我对 MoE 模型中的 Fused MoE...

    摘要图
认证与成就
获得 270 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息