LLM 低成本 GPU 部署方案 lmdeploy 开源！

今天要介绍的是 lmdeploy，一个服务端场景下、transformer 结构 LLM 部署工具。

你可能要问，现在 LLM 周边工具这么多，为什么要用 lmdeploy 呢？

专注场景

lmdeploy 实现了 GPU 服务端部署，它有如下特点：

支持 Tensor Parallel：眼下 7B 精度是“按下葫芦起了瓢”，终究要运行更大模型。买不到 A100 不用怕，可以把 65B 或更大的模型，切分到多个 3090 上运行。
多并发优化：后端服务必然考虑部署成本，lmdeploy 不止实现了多 batch，更完成了 kv cache 量化，有效降低单用户成本。

不止是推理量化工具，lmdeploy 在服务化方面有更多特性：

模型转换：只要是 transformer 结构（InternLM/LLaMa/Vicuna），无论 HuggingFace 或 Meta 格式，都可以转成需要的 bin
交互推理：缓存历史会话的 cache feature，避免重复计算
接入方式：lmdeploy 内部是统一的 API 接口，对外提供了 WebUI、命令行和 gRPC 客户端接入

lmdeploy 和队友 OpenCompass（大模型评测一站式平台）合作良好，使得 lmdeploy 的浮点、定点版本，都能高并发执行大量数据集验证，而非单一的 ppl 结果。只有充分测试，才能保障出优秀且稳定的对话体验。

欢迎使用 lmdeploy ！

lmdeploy：

OpenCompass：

作者：白牛
文章来源：OpenMMLab

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。