NVIDIA Triton推理服务器系列技术文章学习
前面两篇文章,已经将 Triton 的“无状态模型”、“有状态模型”与标准调度器的动态批量处理器与序列批量处理器的使用方式,做了较完整的说明。
在上篇文章中,已经说明了有状态(stateful)模型的“控制输入”与“隐式状态管理”的使用方式,本文内容接着就继续说明“调度策略”的使用。
在 Triton 推理服务器的使用中,模型(model)类别与调度器(scheduler)、批量处理器(batcher)类型的搭配,是整个管理机制中最重要的环节,三者之间根据实际计算资源与使用场景的要求去进行调配,这是整个 Triton 服务器中比较复杂的部分。
前面已经做好了每个推理模型的基础配置,基本上就能正常让 Triton 服务器使用这些独立模型进行推理。接下来的重点,就是要让设备的计算资源尽可能地充分使用,首先第一件事情就是模型并发执行(concurrent model execution)的调试,这是提升 Triton 服务器性能的最基本任务。
前面已经用 [链接] 开源仓的范例资源,创建一个最基础的模型仓以便执行一些基础的用户端范例,现在就要带着读者为模型仓添加新的模型。
前面文章用 Triton 开源项目提供的 image_client.py 用户端作示范,在这个范例代码里调用大部分 Triton 用户端函数,并使用多种参数来配置执行的功能,本文内容就是简单剖析 image_client.py 的代码,为读者提供撰写 Triton 用户端的流程。
作为服务器的最重要任务,就是要接受来自不同终端所提出的各种请求,然后根据要求执行对应的计算,再将计算结果返回给终端。
在前面的文章中,已经带着读者创建好 Triton 的模型仓、安装并执行 Triton 推理服务器软件,接下来就是要安装 Triton 用户端软件,对服务器提出推理请求(requests),才能触发服务器执行推理计算的任务。
在前一篇文章已经带着读者创建一个 Triton 的推理模型仓,现在只要安装好服务器端与用户端软件,就能进行基本的测试与体验。
推理模型仓(inference model repository)是 Triton 推理服务器的最基础元件,如同数据库(database)服务器必须先创建一个数据库是类似的道理。要使用 Triton 推理服务器的第一件任务,就是先创建一个模型存储仓来作为服务器的组织中心,将所需的模型、配置文件和其他资源都位于这个存储仓中,才能让 Triton 进行推理...
大部分要学习 Triton 推理服务器的入门者,都会被搜索引擎或网上文章引导至官方的 [链接] 处(如下截图),然后从 “Get Started” 直接安装服务器与用户端软件、创建基础的模型仓、执行一些最基本的范例。
前面文章介绍微软 Teams 会议系统、微信软件与腾讯 PCG 服务三个 Triton 推理服务器的成功案例,让大家对 Triton 有初步的认知,但别误以为这个软件只适合在大型的服务类应用中使用,事实上 Triton 能适用于更广泛的推理环节中,并且在越复杂的应用环境中就越能展现其执行成效。
AI 正在实现曾被认为科幻的崭新应用—并在影响几乎各行各业。自主机器利用 AI 解决当今最为棘手的一些问题。NVIDIA Jetson 平台为用户提供了一套工具,用于开发和部署 AI 助力机器人、无人机、IVA 应用程序以及其他独立思考的自主机器。
元宇宙正在为每个人提供新的机会——艺术家可以跨越多种 3D 工具创造内容,开发人员可以在虚拟世界中进行 AI 训练,企业可以构建工业流程的数字孪生模拟。
推理识别是人工智能最重要的落地应用,其他与深度学习相关的数据收集、标注、模型训练等工作,都是为了得到更好的最终推理性能与效果。
NVIDIA 在 ROSCon 2022 大会上宣布了 Isaac ROS 软件的最新版本——Developer Preview (DP) 2 版本。该版本包含用于 AMR 机器人机队的全新云/边缘机器人任务管理和监测软件,以及为 ROS 2 开发者提供的额外功能。
自NVIDIA六个月前宣布推出Jetson AGX Orin开发套件以来,深受边缘计算开发者们的喜爱。Jetson Orin帮助数百万边缘AI和ROS开发者大幅提高性能,是适用于各类机器人部署工作的理想平台。GPUS开发者社区联合NVIDIA公司,发起NVIDIA Jetson AGX Orin开发套件用户回馈活动。
NVIDIA JetPack SDK 是构建 AI 应用的全面解决方案,支持所有 Jetson 模块和开发者套件。
借助 NVIDIA Texture Tools Exporter,用户可以使用 NVIDIA 的 CUDA 加速 Texture Tools 3.0 压缩器技术,直接从图像源创建高度压缩的纹理文件(在磁盘和内存中占用空间较小)。