2025年,尤其是上半年,AI算力的重要关注点之一是推理的成本。
从商业的角度看,大语言模型的智能涌现已经吸引了大量的公众关注与产业投资,现在的关注点已经不是AI是否有用,而是如何做好运营。不同用户眼中的成本侧重是不同的,中小企业会关注进入门槛、业务集成,云服务商则关注规模之下的单位成本。
从技术的角度看,以DeepSeek-R1为代表的开源模型带火了混合专家模型(MoE)和思维链(CoT)的概念。新一代大语言模型巨大的参数量终于转化为令人惊艳的推理质量。虽然参数量的提升会导致训练与推理的成本水涨船高,但针对MoE的稀松特性,业内通过专家并行等技术手段获得了显著的推理效率改善,单位成本有两个数量级甚至更多的下降。思维链明显提升了推理质量,但也消耗了数倍甚至十倍以上的Token。
质量改善、成本剧降、消费骤增——这是需求定律在AI推理领域的又一次生动体现。
数据隐私:促进AI算力本地化
DeepSeek-R1还考虑到硬件规格较低平台上的部署,提供了包括1.5B、7B、32B、70B等规模的蒸馏模型,可以适应边缘侧、端侧的部署需要。今年4月发布的Qwen3模型考虑的更为周到,不但有235B和30B的混合专家模型,还有6款参数规模在0.6B至32B的稠密模型。经过两年的市场培育,用户需求趋于多样化,并不断探索构建面向多种平台、多重场景的推理算力。
尤为值得一提的是,随着对AI应用的不断深化,用户对大语言模型的应用的需求日益强烈。越来越多的AI元素融入业务流程中,也带动了私有化部署的意愿——不论是追求算力支持的稳定可控,还是强调数据使用的安全隐私。这也相应地带动了AI一体机概念的火爆。
理性决策:知其然,知其所以然
在推理平台选型时,用户需要了解平台的能力边界、优化方向、扩展潜力。
在益企研究院编撰的《英特尔®至强®W Battlematrix智算平台白皮书》中,比较系统地介绍了AI推理对于计算性能、内存容量、内存带宽等的要求。譬如,平台所能部署的模型大小,与显存/内存的容量密切相关。如果需要控制模型占用的显存空间,除了选择不同规模的模型,还可以通过低秩量化等手段。对于希望在单节点中尝试“满血版”模型的用户,可以选择量化版,缩减显存占用,还可以充分至强平台内存容量优势,在GPU和CPU中混合部署,譬如使用KTransformer、FlashMoE等框架。在IPEX-LLM的加持下,英特尔®至强®平台可以搭配1到8块锐炫显卡,在设备总投资不高的情况下,较大的内存空间不但可以满足数千亿参数量大模型的需要,还可以满足长上下文、长思维链的要求,并承担一定的并发性,明显提升了推理一体机的能力上限。
推理阶段主要包括分词(Tokenize)、预填充(Prefill)、解码(Decode)、文本化(DeTokenize)等阶段。对算力要求最高的是预填充阶段,对吞吐量影响最大的是解码阶段。解码阶段是显存访问密集的操作,显存带宽直接影响每个Token输出延迟(TPOT)。
并行使用多块GPU/推理卡,是扩展显存容量、显存带宽的最直接方法。英特尔®至强®W平台提供了多达112条PCIe 5.0通道,常见于塔式机型的E-ATX/EEB主板上通常可以安装4块双宽或7块单宽卡。搭配市场上性价比较高的16、24GB显存容量的双宽卡,4卡即可以构建64~96GB高速显存容量的推理平台,满足32B、70B模型的部署需要,可提供20个左右的并发需求,总吞吐量可以达到300Token/s左右。
随着Arc Pro B60显卡发布,市场上出现了更具性价比的24GB容量显存方案,通过单卡双芯还可提供48GB显存。在此基础上,基于至强®W的四卡一体机可以提供高达192GB的显存,可以容纳更大、更多的模型,并提供更高的并发数和总吞吐量。
英特尔®至强®W处理器在构建20万元预算内的推理一体机时,除了高扩展性,还有几个独特优势:
首先,得益于内存控制器集成在处理器内部的特点,在较低核数(24核)时,至强®W处理器也可以获得较好的内存带宽。选择较低的核数的处理器可以控制一体机的总体预算。较高的内存带宽有利于推理的预处理效率,也更适合卸载MoE模型的部分专家和权重。
其次,英特尔®至强®W的AMX指令集在大语言模型推理中的作用正在不断被开发。AMX指令集可以明显提升INT8、BF16矩阵运算的效率。我们已经在2023年验证过AMX指令集在神经网络推理中的优势,今年也验证了纯CPU做大语言模型推理的能力。在KTransformer、FlashMoE中,可以将CPU和GPU算力协同起来,并在卸载到CPU的部分发挥AMX指令集的加速效果。
对于期望以较低硬件预算运行类似DeepSeek-R1满血版的大规模MoE模型的用户而言,英特尔®至强®W处理器在内存带宽、AMX指令集方面的优势尤其重要。对于需要在一体机中部署多个模型的用户,其中的神经网络模型可以部署在至强®W处理器中,做类似自然语言处理、机器视觉之类的任务,而大语言模型提供内容生成等任务。
真实案例:完善方案助力业务落地
关于在AI推理一体机中部署多个模型的案例,可以在《英特尔®至强®W Battlematrix智算平台白皮书》中找到。譬如东云睿连OMAiO 系列大语言模型推理一体机可以预装DeepSeek、Qwen、Llama、QwQ 等多种开源模型,以及东云睿连档证通、智能清标系统、数字人客服、编程助手、ChatBI、AI Agent 等AI 应用,帮助客户快速实现业务上线。其中,纸质数据采集的OCR 算法模型、智能助手使用的BigDL自然语言大模型可运行在英特尔®至强®W处理器上;智能客服、编程辅助等更适合大语言模型的应用可以使用本地或云端的GPU算力,取决于数据安全方面的要求。
检索增强生成(RAG)是充分发挥私有数据价值的重要手段,东华医为、飞致云都有将RAG与生成式AI结合赋能业务的案例出现在白皮书中。这些案例均在基于英特尔®至强®W处理器的四卡一体机上得到了验证。
结语
《英特尔®至强®W Battlematrix智算平台白皮书》聚焦于中小企业、科研机构等用户私有化部署AI推理平台的需求,在满足数据安全的刚需前提下,通过提供关键背景知识,帮助用户合理选型,并用实际案例展现了可行的硬件形态和经过验证的多种AI业务。