拿到Cix开发有一阵子了,写了一篇NPU的测评文章,链接在这:跳跳跳,发现大家好像对枯燥的技术性文章热情不高:
本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Tra...
大家好,今天我们继续vllm源码的解析,一起来看下它最近总是被频繁提起、也是较不好理解的一个创新点:Prefix Caching(本文同时也是Blo...
VLA 应该是自动驾驶以及机器人产业前沿最热的 AI人工智能词语。我们之前文章《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vi...
在“整体流程”一文中,我们已经讨论了 vllm v1 在 offline batching / online serving 这两种场景下的整体运作流程,以offline batching...
丨 导语随着AI技术的迅猛发展,AI智能体在0day漏洞挖掘领域展现出前所未有的潜力。本文将深入探讨AI Agent如何通过创新的多智能体协作...
人人都在聊MCP,但人们口中的MCP往往只是一个拼凑而成的幻影。如今,各大厂商纷纷为它镀金包装,就像硅谷创投圈每隔几年就热炒一次的那...
紧接着昨天那篇PyTorch Blog的内容MetaShuffling:Meta的Fused MoE kernel工程方案,更激进的Kernel优化和尽量避免Padding,我把fbgemm...
By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, St...
过去十年,“中国制造”的标签逐渐被“中国智造”取代;未来十年,中国智能技术将更加深度的融入全球产业链,成为全球技术生态的关键变量。
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果。
按照原定计划,这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起,在之前的文章中,漏掉了一个看似简单,但是十分重要的细节:...
摘要:中国数字经济规模十年增长3.8倍,2023年达53.9万亿元,占42.8%,贡献率66.45%。智能算力作为关键引擎,市场规模跃升至每1元投入带动3...
近日,DeepSeek 官宣其 R1 模型进行「小幅」版本升级,发布 DeepSeek-R1-0528 。在此次更新中,DeepSeek R1 通过提升计算资源配置并在后...
关键词:LLM 定制,RTL 设计,VHDL 设计,LLM as a Judge,高性能处理器设计生产力
随着全球气候变化和自然灾害频发,精确可靠的地球系统预测对于减轻灾害影响、支持人类社会进步都至关重要。传统的数值模型虽然功能强大...
这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最...
随着 DeepSeek-R1 的火爆出圈,LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式,从而促使 CoT Reasoning 愈演愈烈。今...
感染性休克(又称脓毒性休克)是指由脓毒症引发的严重循环障碍和细胞代谢紊乱的综合征,在临床表现上可以视为脓毒症发展的「终末阶段」...
当下,随着 MCP(模型上下文协议)的迅速发展,AI 开发领域的协作生态正经历重塑,MCP 为应用和服务方之间的协同开辟了新途径。太极平台...
基于 Transformer 的大型语言模型(LLMs)显著推动了人工智能能力的发展,但由于其高计算需求、内存带宽限制和能耗问题,将其部署在边缘...
高效目标跟踪:在杂乱环境中实现对不可预测目标的高效跟踪,解决传统分离流程引入的显著延迟和累积误差问题。
后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章,虽然比较浅显简单,但我自己挺喜欢这种温故而知新的感觉。
关键词:SW HW Co-design、mpGEMM、LLM、Inference、Quantization
大模型作为产业变革的核心引擎。通过 RAG、Agent 与多模态技术正在重塑 AI 与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专...
Arm KleidiAI是一个利用arm CPU向量扩展指令(包括NEON MLA, dot product, i8mm矩阵乘,SME2 outer product, SME2 multi-vector等)加速...
笔者一直想找个开源的推理引擎框架学习一下源代码,机缘巧合认识了 sglang 社区的朋友,于是也参与了一些sglang的code walk through。本...
在经历了“人工智障”、“答非所问”、“一问三不知”等诸多客服困境后,AI大模型的出现让企业仿佛瞬间等到了春天。
最近大型语言模型的进展,激发了人们将它们应用于电子设计自动化(EDA,即利用软件工具辅助设计电子系统,比如芯片设计)任务的兴趣,特...
近年来,多模态预训练模型如雨后春笋般涌现,其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力,无疑是里程碑式的...
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。