本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Tra...
大家好,今天我们继续vllm源码的解析,一起来看下它最近总是被频繁提起、也是较不好理解的一个创新点:Prefix Caching(本文同时也是Blo...
在当今科学研究与工业应用的前沿领域,原子系统三维结构的生成建模正展现出颠覆性潜力,有望彻底重塑新型分子和材料的逆向设计版图。从...
通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要...
6月20日,超聚变TechX“数生智能,构建AI算存共同体”专场直播活动成功举办。北京大学计算中心系统管理室主任樊春、希捷科技中国区市场营...
一项名为「蛋白质结构预测关键评估(Critical Assessment of protein Structure Prediction)」的竞赛面临停办风险——正是那个 AlphaFold...
蛋白质作为生命活动的主要承担者,在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设...
NVIDIA 发布了机器人仿真参考应用 Isaac Sim 和机器人学习框架 Isaac Lab 的开发者预览版。开发者现在可以通过 GitHub 访问早期版本,抢...
谷歌 DeepMind 的 Alpha 系列再添新成员——AlphaGenome,其能够更全面、准确地预测人类 DNA 序列中单个变异或突变,如何影响一系列调控基...
众所周知,人体由不同类型的细胞组成——免疫细胞在感染发生时可引发炎症反应以抵御病原体;干细胞具有分化潜能,可生成多种组织类型;而...
有效的编译器代码优化在计算机和软件工程中至关重要。这些优化的成功主要取决于应用于代码的优化 pass 的选择和排序。
6 月 13 日,全球计算机视觉三大顶级会议之一 CVPR 2025 公布了最佳论文等奖项。根据官方数据,CVPR 2025 共收到了超 4 万名作者提交的 ...
在vllm v0(版本是0.4)中,单次调度步骤里要么全是prefill阶段的请求,要么全是decode阶段的请求。
长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。随着大模型参数量突破万亿级、训练...
在植物科学领域,长非编码 RNA(lncRNA)的研究正逐渐成为焦点。 2020 年发表的一篇关于植物 lncRNA 研究的论文指出,lncRNA 在植物的生...
本期直播为极术社区2025年推出的此芯AI PC开发套件瑞莎“星睿O6”系列第四场公开课。本期安谋科技资深技术专家聚焦“星睿O6”开发套件,重点...
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU ...
本文介绍vLLM中Triton Merge Attention States Kernel的实现,与 pytorch原生实现相比,该Triton kernel最高可实现 3-5 倍以上的算子加...
VLA 应该是自动驾驶以及机器人产业前沿最热的 AI人工智能词语。我们之前文章《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vi...
在“整体流程”一文中,我们已经讨论了 vllm v1 在 offline batching / online serving 这两种场景下的整体运作流程,以offline batching...
丨 导语随着AI技术的迅猛发展,AI智能体在0day漏洞挖掘领域展现出前所未有的潜力。本文将深入探讨AI Agent如何通过创新的多智能体协作...
人人都在聊MCP,但人们口中的MCP往往只是一个拼凑而成的幻影。如今,各大厂商纷纷为它镀金包装,就像硅谷创投圈每隔几年就热炒一次的那...
紧接着昨天那篇PyTorch Blog的内容MetaShuffling:Meta的Fused MoE kernel工程方案,更激进的Kernel优化和尽量避免Padding,我把fbgemm...
By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, St...
过去十年,“中国制造”的标签逐渐被“中国智造”取代;未来十年,中国智能技术将更加深度的融入全球产业链,成为全球技术生态的关键变量。
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果。
按照原定计划,这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起,在之前的文章中,漏掉了一个看似简单,但是十分重要的细节:...
摘要:中国数字经济规模十年增长3.8倍,2023年达53.9万亿元,占42.8%,贡献率66.45%。智能算力作为关键引擎,市场规模跃升至每1元投入带动3...
近日,DeepSeek 官宣其 R1 模型进行「小幅」版本升级,发布 DeepSeek-R1-0528 。在此次更新中,DeepSeek R1 通过提升计算资源配置并在后...
拿到Cix开发有一阵子了,写了一篇NPU的测评文章,链接在这:跳跳跳,发现大家好像对枯燥的技术性文章热情不高:
关键词:LLM 定制,RTL 设计,VHDL 设计,LLM as a Judge,高性能处理器设计生产力