极术小姐姐 · 6月21日 · 北京市

Arm Neoverse N2 上的加速 LLM 推理

image.png

人工智能(AI)已在各行各业掀起波澜,其指数式增长的突出表现是大型语言模型(LLM)的出现。这些模型彻底改变了我们与技术互动的方式,在自然语言理解和生成方面提供了前所未有的能力。虽然 GPU 在训练人工智能生成模型方面发挥了重要作用,但在推理领域,GPU 和加速器之外还有更多选择。长期以来一直用于传统人工智能和机器学习(ML)用例的 CPU 可以处理各种任务,在部署方面也更加灵活,因此对于希望将 LLM 集成到其产品和服务中的企业和开发人员来说,CPU 是一个极具吸引力的选择。在本博文中,我们将探讨基于 Arm Neoverse N2 的阿里巴巴倚天 710 CPU 在运行 LLaMa3 [1] 和 Qwen1.5 [2] 等行业标准大型语言模型 (LLM) 时的灵活性和可扩展性。此外,博客还将进行比较分析,展示 Yitian710 CPU 与其他基于 CPU 的服务器平台相比的主要优势。

作者:Willen Yang
文章来源:https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/accelerated-llm-inference-on-arm-neoverse-n2

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区Arm技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
23533
内容数
990
Arm相关的技术博客,提供最新Arm技术干货,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息