人工智能(AI)已在各行各业掀起波澜,其指数式增长的突出表现是大型语言模型(LLM)的出现。这些模型彻底改变了我们与技术互动的方式,在自然语言理解和生成方面提供了前所未有的能力。虽然 GPU 在训练人工智能生成模型方面发挥了重要作用,但在推理领域,GPU 和加速器之外还有更多选择。长期以来一直用于传统人工智能和机器学习(ML)用例的 CPU 可以处理各种任务,在部署方面也更加灵活,因此对于希望将 LLM 集成到其产品和服务中的企业和开发人员来说,CPU 是一个极具吸引力的选择。在本博文中,我们将探讨基于 Arm Neoverse N2 的阿里巴巴倚天 710 CPU 在运行 LLaMa3 [1] 和 Qwen1.5 [2] 等行业标准大型语言模型 (LLM) 时的灵活性和可扩展性。此外,博客还将进行比较分析,展示 Yitian710 CPU 与其他基于 CPU 的服务器平台相比的主要优势。
作者:Willen Yang
文章来源:https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/accelerated-llm-inference-on-arm-neoverse-n2
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区Arm技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。