优化 Llama.cpp:基于 Arm I8MM 指令
本文介绍了我们在使用 Arm I8MM 指令集优化 Llama.cpp 中 Q6_K 和 Q4_K 量化模型推理的实践。具体来说,主要采用的是带有累加功能的有符号 8 位整数矩阵乘法指令 —— smmla
。
理解 Llama.cpp 中的量化机制
Llama.cpp 是一个开源的 C++ 库,用于运行大语言模型,并针对 CPU 快速推理进行了优化。它采用了诸如量化(例如 8 位或 4 位整数格式)等技术,来减少内存使用并加速计算,从而支持模型在消费级和服务器级硬件上的高效部署。
作者:Yibo Cai
文章来源:https://community.arm.com/arm...
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区 Arm 技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。