极术小姐姐 · 1 天前

将 Llama.cpp 优化为支持 Arm I8MM 指令集

image.png

优化 Llama.cpp:基于 Arm I8MM 指令

本文介绍了我们在使用 Arm I8MM 指令集优化 Llama.cpp 中 Q6_K 和 Q4_K 量化模型推理的实践。具体来说,主要采用的是带有累加功能的有符号 8 位整数矩阵乘法指令 —— smmla

理解 Llama.cpp 中的量化机制

Llama.cpp 是一个开源的 C++ 库,用于运行大语言模型,并针对 CPU 快速推理进行了优化。它采用了诸如量化(例如 8 位或 4 位整数格式)等技术,来减少内存使用并加速计算,从而支持模型在消费级和服务器级硬件上的高效部署。

作者:Yibo Cai
文章来源:https://community.arm.com/arm...

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区 Arm 技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
23724
内容数
1097
Arm相关的技术博客,提供最新Arm技术干货,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息