爱笑的小姐姐 - 极术社区 - 连接开发者与智能计算生态

爱笑的小姐姐

9435 声望

嵌入式 AI，让AI无处不在。欢迎加入微信交流群，微信号：gg15319381845（... 展开

关注他

关注了

7

粉丝数

19081

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

发布了文章 · 6月26日

HMPE革新Transformer检测，小目标mAP飙升1.9%，解码器砍掉5层，推理速度翻倍

Query生成不足：现有基于Transformer的检测方法在生成Query时未能充分利用位置、类别和边界框信息，导致在有限数据集上训练时性能欠佳。
发布了文章 · 6月25日

YOLOv13震撼发布 | 超图高阶建模+轻量化模块，保证实时性的情况下，检测精度再创新高！

局部信息聚合与成对相关性建模的局限性：YOLOv11及更早版本依赖于卷积机制，感受野受限；而YOLOv12引入的区域自注意力机制虽然扩展了感受野，但仅能建模成对像素之间的低阶相关性，缺乏捕捉全局多对多高阶语义相关性的能力。
发布了文章 · 6月20日

HeteroLLM：利用移动端 SoC 实现 NPU-GPU 并行异构 LLM 推理！

随着 ChatGPT、AI 代理和视频生成等人工智能技术的快速发展，现代移动系统已开始在本地设备上集成这些 AI 能力，以增强隐私保护并减少响应延迟。
发布了文章 · 6月17日

【博客转载】CUDA Kernel Execution Overlap

原地址：[链接] ，来自Lei Mao，已获得作者转载授权。后续会转载几十篇Lei Mao的CUDA相关Blog，Blog会从稍早一些的CUDA架构到当前最新的CUDA架构，也会包含实用工程技巧，底层指令分析，Cutlass分析等等多个课题，是一个时间线十分明确的专栏。
发布了文章 · 6月9日

Meta Shuffling 的 MoE Grouped GEMM kernel benchmark

紧接着昨天那篇PyTorch Blog的内容MetaShuffling：Meta的Fused MoE kernel工程方案，更激进的Kernel优化和尽量避免Padding，我把fbgemm开源的moe grouped gemm kernel([链接])拷贝了一下，fix了一个小bug，然后在H100(Hopper)和SGLang的Grouped GEMM Triton Kernel对比了一下正确性和性能，在正确性没问题的情况下，性能...
发布了文章 · 6月5日

Soft 最近邻插值 SNI 对齐特征 +ESD 增强空间保留，效率精度双突破

特征错位问题：传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图，容易导致特征错位问题，从而影响模型性能。
发布了文章 · 6月4日

图解Vllm V1系列4：加载模型权重(load_model)

按照原定计划，这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起，在之前的文章中，漏掉了一个看似简单，但是十分重要的细节：vllm是如何加载模型权重的？在现在非常热门的rlhf训练中，避不开的一点是Actor和推理引擎间是需要做权重通信和更新的。所以，了解vllm load_model()的运作流十分重要。
发布了文章 · 6月3日

减少 55% 代码行数、 CPU 和 GPU 峰值内存，加速训练推理！

软件膨胀（Software bloat）是指软件在运行时未被使用的代码和功能。对于机器学习（ML）系统而言，软件膨胀是造成其技术债务的主要因素，会导致性能下降和资源浪费。
发布了文章 · 5月29日

MiniMax AI 开源首个感知+推理的强化学习框架 V-Triune: 统一视觉-语言任务

随着 DeepSeek-R1 的火爆出圈，LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式，从而促使 CoT Reasoning 愈演愈烈。今天让我们继续聚焦 Reasoning in VLMs 方面相关的工作。
发布了文章 · 5月28日

边缘端Qwen2.5-0.5B推理：通过模型压缩和硬件加速实现高效的LLM推理

基于 Transformer 的大型语言模型（LLMs）显著推动了人工智能能力的发展，但由于其高计算需求、内存带宽限制和能耗问题，将其部署在边缘设备上面临巨大挑战。
发布了文章 · 5月27日

YOPOv2-Tracker开源 | 端到端方法革新，跟踪提速10倍，扰动观测器破解传统框架延迟难题

高效目标跟踪：在杂乱环境中实现对不可预测目标的高效跟踪，解决传统分离流程引入的显著延迟和累积误差问题。
发布了文章 · 5月26日

[Triton编程][基础] Triton极简入门: Triton Vector Add

后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章，虽然比较浅显简单，但我自己挺喜欢这种温故而知新的感觉。
发布了文章 · 5月23日

VisionReasoner首提统一框架，检测/分割/计数3类任务超越YOLO-World等专用模型

现有视觉语言模型（LVLMs）在处理多样化视觉感知任务时依赖任务特定模块和奖励函数，导致可扩展性和泛化能力受限
发布了文章 · 5月21日

混合CPU-GPU调度+Cache管理：MoE推理Prefill1.3倍、Decode1.7倍加速！

关键词：MoE、CPU-GPU Scheduling、Inference、Cache Management
发布了文章 · 5月19日

CMU与Meta提出LithOS：节省 GPU51% 容量、26%能耗，迈向高效机器学习操作系统

机器学习（ML）工作负载在数据中心对 GPU 的需求激增，使得高效利用 GPU 变得至关重要。然而，在满足各个 ML 模型的多样化需求的同时优化资源使用是一个挑战。
发布了文章 · 5月15日

阿里提出 Cost-Efficient LLMs：从 Large 到 Super-Tiny 的端到端优化

近年来，大型语言模型（LLMs）通过优化传统的自然语言处理（NLP）流程，在提升人工智能性能和泛化能力方面取得了显著进展。
发布了文章 · 5月14日

基于 LLM 的 RTL 代码生成，VerilogEval 上功能正确性 SOTA

最近大型语言模型的进展，激发了人们将它们应用于电子设计自动化（EDA，即利用软件工具辅助设计电子系统，比如芯片设计）任务的兴趣，特别是在寄存器传输级（RTL，这是数字电路设计中的一种抽象层次，介于高层算法和底层门电路之间，用于描述数据在寄存器之间的传输和处理）代码生成方面。
发布了文章 · 5月13日

在多模态的浪潮之巅，如何“精雕细琢”图文对齐？

近年来，多模态预训练模型如雨后春笋般涌现，其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力，无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间，为诸多下游任务奠定了坚实的基础。然而，正如“月有阴晴圆缺”，CLIP 在展现其强大通用性的同时，也暴露了其在细粒度理解 (fine-grain...
发布了文章 · 5月12日

Tilus 虚拟机：超越 Triton 开启低精度任意比特 GPGPU 的 LLM 高效计算

❝为大型语言模型（LLM）提供服务对于人工智能驱动的应用程序至关重要，但这需要大量的计算资源，特别是在内存带宽和计算吞吐量方面。
发布了文章 · 5月9日

FlashInfer：面向 LLM 服务的可定制且高效的 GPU 注意力引擎

驱动大型语言模型（LLM）的 Transformer 架构因其注意力机制而成为基础。随着这些模型的规模不断扩大，导致计算资源需求激增、实时性要求提高，让高效的 GPU 注意力内核对于实现高吞吐量和低延迟的推理变得至关重要。
点击载入更多

认证与成就

获得 325 次点赞

2020年02月20日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息