人人都在聊MCP,但人们口中的MCP往往只是一个拼凑而成的幻影。如今,各大厂商纷纷为它镀金包装,就像硅谷创投圈每隔几年就热炒一次的那...
紧接着昨天那篇PyTorch Blog的内容MetaShuffling:Meta的Fused MoE kernel工程方案,更激进的Kernel优化和尽量避免Padding,我把fbgemm...
By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, St...
过去十年,“中国制造”的标签逐渐被“中国智造”取代;未来十年,中国智能技术将更加深度的融入全球产业链,成为全球技术生态的关键变量。
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果。
按照原定计划,这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起,在之前的文章中,漏掉了一个看似简单,但是十分重要的细节:...
摘要:中国数字经济规模十年增长3.8倍,2023年达53.9万亿元,占42.8%,贡献率66.45%。智能算力作为关键引擎,市场规模跃升至每1元投入带动3...
近日,DeepSeek 官宣其 R1 模型进行「小幅」版本升级,发布 DeepSeek-R1-0528 。在此次更新中,DeepSeek R1 通过提升计算资源配置并在后...
拿到Cix开发有一阵子了,写了一篇NPU的测评文章,链接在这:跳跳跳,发现大家好像对枯燥的技术性文章热情不高:
关键词:LLM 定制,RTL 设计,VHDL 设计,LLM as a Judge,高性能处理器设计生产力
随着全球气候变化和自然灾害频发,精确可靠的地球系统预测对于减轻灾害影响、支持人类社会进步都至关重要。传统的数值模型虽然功能强大...
这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最...
随着 DeepSeek-R1 的火爆出圈,LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式,从而促使 CoT Reasoning 愈演愈烈。今...
感染性休克(又称脓毒性休克)是指由脓毒症引发的严重循环障碍和细胞代谢紊乱的综合征,在临床表现上可以视为脓毒症发展的「终末阶段」...
当下,随着 MCP(模型上下文协议)的迅速发展,AI 开发领域的协作生态正经历重塑,MCP 为应用和服务方之间的协同开辟了新途径。太极平台...
基于 Transformer 的大型语言模型(LLMs)显著推动了人工智能能力的发展,但由于其高计算需求、内存带宽限制和能耗问题,将其部署在边缘...
高效目标跟踪:在杂乱环境中实现对不可预测目标的高效跟踪,解决传统分离流程引入的显著延迟和累积误差问题。
后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章,虽然比较浅显简单,但我自己挺喜欢这种温故而知新的感觉。
关键词:SW HW Co-design、mpGEMM、LLM、Inference、Quantization