拿到Cix开发有一阵子了,写了一篇NPU的测评文章,链接在这:跳跳跳,发现大家好像对枯燥的技术性文章热情不高:
本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Tra...
大家好,今天我们继续vllm源码的解析,一起来看下它最近总是被频繁提起、也是较不好理解的一个创新点:Prefix Caching(本文同时也是Blo...
By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, St...
过去十年,“中国制造”的标签逐渐被“中国智造”取代;未来十年,中国智能技术将更加深度的融入全球产业链,成为全球技术生态的关键变量。
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果。
按照原定计划,这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起,在之前的文章中,漏掉了一个看似简单,但是十分重要的细节:...
摘要:中国数字经济规模十年增长3.8倍,2023年达53.9万亿元,占42.8%,贡献率66.45%。智能算力作为关键引擎,市场规模跃升至每1元投入带动3...
近日,DeepSeek 官宣其 R1 模型进行「小幅」版本升级,发布 DeepSeek-R1-0528 。在此次更新中,DeepSeek R1 通过提升计算资源配置并在后...
关键词:LLM 定制,RTL 设计,VHDL 设计,LLM as a Judge,高性能处理器设计生产力
随着全球气候变化和自然灾害频发,精确可靠的地球系统预测对于减轻灾害影响、支持人类社会进步都至关重要。传统的数值模型虽然功能强大...
这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最...
随着 DeepSeek-R1 的火爆出圈,LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式,从而促使 CoT Reasoning 愈演愈烈。今...
感染性休克(又称脓毒性休克)是指由脓毒症引发的严重循环障碍和细胞代谢紊乱的综合征,在临床表现上可以视为脓毒症发展的「终末阶段」...
当下,随着 MCP(模型上下文协议)的迅速发展,AI 开发领域的协作生态正经历重塑,MCP 为应用和服务方之间的协同开辟了新途径。太极平台...
基于 Transformer 的大型语言模型(LLMs)显著推动了人工智能能力的发展,但由于其高计算需求、内存带宽限制和能耗问题,将其部署在边缘...
高效目标跟踪:在杂乱环境中实现对不可预测目标的高效跟踪,解决传统分离流程引入的显著延迟和累积误差问题。
后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章,虽然比较浅显简单,但我自己挺喜欢这种温故而知新的感觉。
关键词:SW HW Co-design、mpGEMM、LLM、Inference、Quantization
大模型作为产业变革的核心引擎。通过 RAG、Agent 与多模态技术正在重塑 AI 与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专...
Arm KleidiAI是一个利用arm CPU向量扩展指令(包括NEON MLA, dot product, i8mm矩阵乘,SME2 outer product, SME2 multi-vector等)加速...
笔者一直想找个开源的推理引擎框架学习一下源代码,机缘巧合认识了 sglang 社区的朋友,于是也参与了一些sglang的code walk through。本...
在经历了“人工智障”、“答非所问”、“一问三不知”等诸多客服困境后,AI大模型的出现让企业仿佛瞬间等到了春天。
最近大型语言模型的进展,激发了人们将它们应用于电子设计自动化(EDA,即利用软件工具辅助设计电子系统,比如芯片设计)任务的兴趣,特...
近年来,多模态预训练模型如雨后春笋般涌现,其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力,无疑是里程碑式的...
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU ...
随着电动汽车和电子设备等行业的迅猛发展,高性能电池需求呈现出井喷式增长。作为下一代储能技术的核心,固态电池凭借更高的安全性、能...
使用扣子生成一个角色扮演机器人也是挺简单的,我们需要先在个人空间里先创建一个智能体,操作如下图,点击工作空间,然后再点击右上角...
DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM),因其强大的性能而备受赞誉。然而,由于其庞大的规模和独特的架构(采用多头潜在注意...
1.1. LLM和DeepSeek是什么大语言模型(LLM)是基于深度学习的人工智能技术,通过海量文本数据训练,采用Transformer架构实现自然语...