上周中的时候, 同事给我了一份线上 DeepSeek-R1 推理的 Expert 激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面 10 层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是...
点击下方卡片,关注「集智书童」公众号 点击加入👉「集智书童」交流群 导读 现有最先进的特征匹配器利用Transformer捕获长距离依赖关系,但受限于高空间复杂度,导致训练需求大和推理延迟高。在性能和效率之间取得更好的平衡仍然是特征匹配领域的一个挑战。受Mamba的线性复杂度的启发,作者提出了一种基于Mamba的超轻量级...
本文针对传统 Bottleneck 结构(由于过度强调批处理统计导致实例可区分性降低)和解耦 Head (计算冗余)在目标检测框架中的固有局限性,提出了两个新颖的模块:全通道全局自注意力的实例特定 Bottleneck (ISB)和实例特定非对称解耦 Head (ISADH)。ISB 模块创新性地重构特征图,通过批处理统计和实例特定特征的协同...
上回讲到 SGLang 中的 DP MLA 特性 SGLang DP MLA 特性解读 ,这里简单回顾一下核心 idea。之所以在 MLA 中使用 DP 的方式是因为 MLA 在存储 KV Cache 的时候对于一个 token 存储的 shape 是(1, 1, kv_lora_rank+qk_rope_head_dim),而不是普通 MHA 下的(1, kv_head_num, head_dim)。这就导致如果按照以前的 TP 并行方...
满血版 DeepSeek R1 部署A100,基于 INT8 量化,相比 BF16 实现50%吞吐提升!
本文的目标是提升文本到图像检索的性能。为此,作者提出了一种新的框架,该框架能够提升大规模预训练视觉语言模型的表现,使其能够用于文本到图像的重排序。该方法,增强语言-图像预训练(ELIP),利用文本 Query 来预测一组视觉 Prompt ,以条件化 ViT 图像编码。ELIP 可以轻松应用于常用的 CLIP/SigLIP 以及最先进的 B...
作者提出了一种对全局处理视觉Transformer(ViT)的简单增强方法,以在保持吞吐量的同时提高准确性。ViT+Jumbo创建了一个更宽的CLS Token ,该 Token 在注意力之前被分割以匹配 Patch Token 宽度,然后进行自注意力处理并重新组装。在注意力之后,Jumbo对此 Token 应用了一个专用且更宽的FFN。Jumbo在ImageNet-1K上显著...
被好几个团队的人追着要渣 B 来分析一下 DeepEP 的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在 DeepSeek-V3 的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈 EP 并行, 并进一步分析一下这份出色的工作. 顺便展开讨论一下 Scal...
以大模型百万分之一参数量的预测小模型,在 LongBench 数据集上使用 4%的 KV Cache 达到 Full Cache 99%的模型准确率。
Xid 错误的识别和处理:文档详细解释了如何通过系统日志识别 Xid 错误,以及如何使用 nvidia-smi 命令查看错误计数和具体情况。
苹果首款机器人(试验版),居然是个台灯??前段时间苹果布局机器人的消息频频传出,但究竟要做个什么样式儿的一直没有定论。苹果最新论文揭露,或许它们看起来不会像机器人,或许它们将无处不在!苹果放出来一个台灯机器人以做展示,火遍 reddit、X 等平台。这个台灯那是相当灵活,它摆脱了机械式的动作,甚至能够通过...
提升 YOLO 框架的网络架构一直至关重要,尽管注意力机制在建模能力方面已被证明具有优越性,但长期以来一直专注于基于 CNN 的改进。这是因为基于注意力的模型无法与基于 CNN 的模型的速度相匹配。本文提出了一种以注意力为中心的 YOLO 框架,即 YOLOv12,该框架在匹配先前基于 CNN 的模型速度的同时,利用了注意力机制的...
视觉 Transformer(ViT)在各种计算机视觉任务中展现了最先进的性能,但其高计算需求使其在资源有限的边缘设备上不切实际。本文提出了 MicroViT,这是一种轻量级的视觉 Transformer 架构,通过显著降低计算复杂度,同时保持高精度,针对边缘设备进行了优化。MicroViT 的核心是高效单头注意力(ESHA)机制,该机制利用分...
感知系统是自动驾驶系统的核心元素,在确保安全方面发挥着关键作用。驾驶场景感知系统本质上是一个目标检测任务,需要在准确性和处理速度之间取得平衡。许多当代方法侧重于提高检测精度,但往往忽视了在计算资源有限时实时检测能力的重要性。因此,研究针对驾驶场景的高效目标检测策略至关重要。
确保自主驾驶列车在铁路表面的障碍物避免至关重要,其第一步是分割铁路区域。作者选择在 Yolact 的基础上进行工作。为了解决模型预测的铁路边缘模糊问题,作者将边缘运算符提取的边缘信息纳入原始 Yolact 的损失函数,以强调模型对铁路边缘的重视。此外,作者应用了盒滤波器平滑由线性插值引起的 GT 边缘的破碎。由于边...
我的课程笔记,欢迎关注:[链接] 。这里简要解析了一下 SGLang v0.4 版本中针对 DeepSeek 模型引入的 MLA Data Parallelism Attention 优化。这个优化可以通过 Data Parallelism 的方式共享 KV Head 来避免在每个 TP Worker 中都重复计算 KV Head,这对于 DeepSeek 系列模型来说非常有用,因为它的 MLA KV Head 无法使用...
抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。
今年 10 月在费城开 COLM 的时候,我有幸见到了 NVDA 两篇工作的 post,一篇是 RULER,现在已经是 long context 几乎必测的 benchmark;另一篇便是今天要讨论的工作——NeMo-Aligner。
最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。
首先我会简单回顾下 2024 年的学习收获,然后我会聊一聊我在 SGLang 中度过的几个月业余开源开发的经历。无论是最近火遍全球的 DeepSeek V3/R1,还是在 2024 年各家厂商发布的重量级 MoE 模型都将 MoE 架构重新带上了历史舞台,所以我个人把 2024 年定义为 MoE 之年。因此,最后我会讨论一下我对 MoE 模型中的 Fused MoE...