IT大嘴巴 · 2023年04月04日 · 天津市武清区

预算减半KPI不变,你该怎么办?

“哎呀,今天又没抢到,名额太少了,下次你们帮我一起哈”。

不需要抬头看,陈虎就知道说话的是楠楠。作为部门里自诩的“文青“,楠楠最爱的就是穷游,而最近每天10点她都会守在电脑前抢购某旅游平台“3999五一泰国游”的机票。的确,随着第二批40国出境团队游国家试点恢复,最近的出境旅游市场持续迎来复苏势头,甚至有统计数据表示五一假期的订单量环比半个月前增长了167%。

image.png

“慢慢好起来了”,他自言自语的说。对于在旅游公司上班的陈大虎来说,过去的三年真是太难了,尤其是2022年堪称是步履维艰。以往他很熟悉的那些竞争对手,有许多都淹没在了这几年里,哪怕是像他们这样坚持到现在的,也大幅度缩减了业务规模,他的团队也走了不少人。

但即便如此,陈大虎还是带着团队重新梳理了公司多年来积累的数据信息,并开发出了智能化的AI预测模型,甚至还计划根据用户喜好和预算实现定制化的推荐与智能目的地决策。每每提到这个项目的时候,陈大虎都引以为傲,毕竟业界类似的成熟产品还不多。

而如今项目进入了攻坚阶段,要处理数据库中的庞大数据,就需要强大算力尤其是加速卡的支持。为此,陈大虎早在上个月就给老板打了购买GPU加速卡的报告,但时至今日却如泥牛入海。“下周例会我得再申请下,不能再耽误了”,他想。

或许是老天也看出了大虎的积极,转天上班他就收到了老板的回复,总结起来就是12个字——预算压缩一半,项目进度不变。“这活儿没法干了”,回到办公室的大虎忍不住发了牢骚。

原本按照规划,项目需要至少40块GPU,让团队中的每个程序员都有自己的GPU平台,解决原有的性能瓶颈问题。但是如今预算砍掉一半,这“半套”系统如何运行,的确让陈大虎挠头不已。要知道,即便在计算机快速发展,人工智能甚至可以通过ChatGTP这样的方式与人类对话,但我们对于算力的需求依旧是无止境的,可谓是“韩信点兵,多多益善”。

其实类似陈大虎这样的情况非常多。虽然伴随着疫情的慢慢褪去,我们的生活已经逐渐步入了正轨,但是三年时间让太多公司失去了“元气”,同时也对未来的发展充满了未知。在这种情况下,自然大家对于投资都变得特别谨慎,即便对2023年充满了希望,但到了真花钱的时候,更多人还是小心又小心,因此这种“砍预算”也就成为了今年企业的常态,且不说是陈大虎这样的本土公司,就连好多跨国企业都在裁员。

image.png

“我昨天看新闻,不少国外大公司都开始裁员了,虎哥你就想开点,这不是还有一半的预算么?已经很不错了”,看到大虎一脸的不情愿,邻座的二狗赶紧来安慰。其实大家都知道GPU的重要性,如今预算砍掉一半,预定的设备怎么办?难道要两人用一台电脑?一想到这里,二狗不禁想起了某著名二战电影中两人一条枪的画面——其实做项目跟打仗都差不多,哪有空手上战场的道理?

接下来的几天,办公室中总是隐约有种压抑的份额,大虎也变得越来越烦躁,他很希望能找到一个更具性价比的解决办法,也恨不得真的能把一分钱掰成两半花,至少这样能解决他当下GPU算力不足的问题。直到二狗问了他一个直击灵魂的问题——咱们买那么多GPU,难道是24小时不间断运行么?

“怎么可能,你糊涂了?”大虎笑着说。的确,虽然在外界看来程序员们非常忙,甚至有人在离开工位的时候还在电脑屏幕贴上一张“请勿触碰”的贴纸,但事实上无论是人体还是机器,都不太可能24小时不间断运行,同时写程序、改BUG、调试等等工作都要占用大量的时间,而GPU最重要的就是后期的数据处理。从这一点来说,GPU完成了最关键的、最具压力的项目,但并不代表着它必须贯穿应用的始终。

一句话点醒梦中人。既然GPU并不是每时每刻都在满负荷运行,那能不能通过共享的方式实现多人协同,达到“歇人不歇机”的效果?这个想法刚一冒头,随即就被陈大虎自己否决了。“GPU虚拟化喊了这么多年,却还是只能承载一些基础的、初级应用”,他想:“而我们的AI分析要求算力强大,且不说GPU能不能满负荷运转,仅仅虚拟化层带来的损耗,就已经是得不偿失了”。想到这里,大虎即将脱口而出否决二狗的想法,却发现他已经抢先一步在电脑上打开一个网站,上面赫然写着四个字。

“趋动科技?这是什么公司”,大虎问道。

“虎哥,GPU虚拟化了解一下?”

“别逗了,哥好多年前就了解了,不靠谱”

“错了吧虎哥”,二狗笑了笑:“俗话说活到老学到老,经过我这几天不停的钻研,我发现原来GPU虚拟化现在也已经快速迭代,这个趋动科技就可以通过池化的技术实现CPU与GPU的协同应用,并且通过统一管理达到按需调度、动态伸缩的效果。”过去的这几天,二狗查询了不少GPU新技术,甚至还去问了ChatGPT。终于天道酬勤,让他找到了这家公司。

以往,我们在谈到GPU虚拟化的时候,很自然就类比到熟悉的服务器虚拟化,从而简单的认为这些虚拟化只能实现算力的简单分配,比如给某个用户划分30%或50%的性能。但事实上,随着GPU从虚拟化到池化的转变,如今的技术已经可以实现AI应用与物理 GPU服务器分离部署,实现了GPU池化层面的软件定义。也正是这样,用户对于GPU资源的远程调用与统一管理都变得更简单,也真正实现了云端的按需分配和弹性扩展。

以趋动科技为例。这家公司推出了名为“OrionX”的AI算力资源池化解决方案,其价值就是在数据中心传统IaaS硬件基础设施架构的基础上,通过安装OrionX打造虚拟化的软件定义资源池,从而让GPU资源在系统中流动起来,实现灵活的调配,以满足不同时段、不同业务压力的需求——国内外的GPU加速卡都可以实现很好的支持,还能够流畅运行TensorFlow、 Pytorch等主流应用。

image.png

这张图可以很好的解释OrionX的逻辑架构。我们可以清楚的看到,OrionX位于底层的GPU架构之上,并不需要用户修改任何底层硬件就可以实现资源池化的管理。通过“化零为整”功能,OrionX可以支持将多台服务器上的GPU提供给一个虚拟机或者容器使用,也可以为同一个虚拟机或容器配备多个GPU资源池。

这样首先实现了分布式训练,解决了传统AI训练性能瓶颈问题,同时基于Horovod框架的AI应用也无需修改代码就可以接入OrionX实现聚合,这样大大提升了原有的资源利用率,让系统充分的“跑”起来。与此同时,也解决了传统GPU虚拟化中不同节点之间资源调配困难的问题,方便的统一运维和管理,也让运维人员事半功倍。

看着上面详细的描述文字,陈大虎心中却是一阵阵的激动,没想到如今的GPU池化技术都已经如此先进了。同时据用户测试,在使用了OrionX进行资源池化后,通过动态的挂载和释放可以将GPU卡节约60%以上,但系统却可以实现真正24小时不间断,因此整体的运行效率反而提升了4倍。“看来咱们砍掉一半的预算能找回来了”,大虎自言自语道。

image.png

除了性能提升之外,GPU池化的优势还在于资源管理,为此OrionX也提供了清晰明了的GUI图形界面。在这里运维人员可以清楚的看到资源池的节点情况,包括哪些资源忙碌、哪些资源闲置都是一目了然。同时这些每日产生的系统数据还会被AI进行智能化的分析,这样通过图片的方式可以更好的观测和查询阶段性的系统表现,也可以对业务运行状况做到心知肚明。

GPU资源分配更灵活、系统使用与业务运行更高效、资源管理与数据安全更稳定、图形化UI运维操作更便捷、企业管理者对于业务更专注,这些优势都是OrionX带来的价值,也是趋势科技相比同类企业的核心竞争力。特别是对于陈大虎所在的小公司来说,2023年充满了挑战和未知,而灵活、高效的系统也让公司业务充满了活力和优势,更容易在竞争中抢占先机。

“二狗,这次多亏你了,我这就去跟老板汇报”,大虎从打印机拿出那尚存余温的报告,转身就要走。

“别急,虎哥,还没完呢”,二狗一把拉住了他。

“还有什么?”大虎有些疑惑。

“如今低碳节能是大趋势,咱们要是用了趋动科技OrionX解决方案,光采购费、电费就能省下大几十万,还能提升400%的GPU综合利用率,减少碳排放上万千克”,二虎眨了眨眼,“你说我为咱们公司省了这么多,下个月的奖金能涨200不?”

“行,我再多给你加50,图个吉利”,大虎头也不回的说。

推荐阅读
关注数
1943
内容数
252
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息