3

极术小姐姐 · 6月30日

将 Llama.cpp 优化为支持 Arm I8MM 指令集

优化 Llama.cpp：基于 Arm I8MM 指令

本文介绍了我们在使用 Arm I8MM 指令集优化 Llama.cpp 中 Q6_K 和 Q4_K 量化模型推理的实践。具体来说，主要采用的是带有累加功能的有符号 8 位整数矩阵乘法指令 —— smmla。

理解 Llama.cpp 中的量化机制

Llama.cpp 是一个开源的 C++ 库，用于运行大语言模型，并针对 CPU 快速推理进行了优化。它采用了诸如量化（例如 8 位或 4 位整数格式）等技术，来减少内存使用并加速计算，从而支持模型在消费级和服务器级硬件上的高效部署。

作者：Yibo Cai
文章来源：https://community.arm.com/arm...

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区 Arm 技术专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

3 阅读 4.9k

推荐阅读

Arm技术文档全集合 ARM NEON优化技术 1 介绍Arm精确超分辨率技术介绍Arm的动态信任区技术 Arm技术文档分享|ARM 软件开发工具 ARM DSTREAM（附PDF）专题推荐 | Arm安全技术学习不可错过的技术干货

Arm技术博客

关注数

23813

内容数

1097

Arm相关的技术博客，提供最新Arm技术干货，欢迎关注

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息