申耀的科技观察 · 2022年06月29日

智能产业加速,为何AI算力要先行?

毫无疑问,今天AI正与产业结合得越来越紧密,从自动驾驶,到智慧医疗,智慧金融、智慧城市等,AI已经开始渗透到我们生活的方方面面。实际上,即便目前来自传统行业用户的AI转型需求尚未完全激活爆发,但仅仅是浮出水面的这部分需求已经是一个万亿级别的超级市场规模。

与此同时,AI的应用还拓展到了之前人们未曾想到的地方——那就是边缘侧。IDC预计,全球边缘计算服务器市场未来五年的年复合增长率会达到20.2%;而在中国市场,边缘计算服务器市场未来五年的年复合增长率更是高达76.7%。

这也意味着,伴随着AI行业应用的不断深入,参数空间会更大、结构更加复杂,算力消耗更高的大型AI模型会不断涌现,同时由于大部分的数据还需要在网络边缘分析、处理与储存,当连接数的不断增加,所需要的边缘AI算力也会呈“指数级”增长。

那么,如何才能更好地破解行业AI和边缘AI爆发所带来的这种挑战?换句话说,当“边缘”遇见“AI”,究竟如何才能更好地跨越背后的算力“鸿沟”呢?

当边缘遇见AI,背后的双重挑战

可以看到,人工智能的变革力量和能力提高了企业业务运营的便利性以及企业的投资回报率,但随着企业数据空前地增长和扩张,且工作负载也在复杂多变的系统中以各种方式流动,这不仅加剧了企业和行业利用AI的能力,同时其位置的复杂性也让边缘AI的重要性随之增加,更让企业面临着全新的挑战,我们可以从两个维度来做观察:

一方面,从行业AI角度看,目前AI技术正在加速与各个主要行业融合,创造出了更多的行业应用场景。但与此同时,这些行业AI的应用也加大了对计算力的消耗,数据显示目前AI算力平均2-3个月就会增长一倍,AI模型越来越庞大,模型的参数规模也在快速增长,因此针对AI的计算和训练,不仅需要引入多样化的计算方式,同时针对AI的大规模训练,仅依靠提升AI加速芯片单卡性能变得非常困难,这也让多机多卡分布式训练“势在必行”,但是和AI服务器通常采用单机训练的方式相比,多机GPU分布式训练是一个系统工程,需要打破“通信墙”和“IO墙”的制约。

另一方面,从边缘AI角度看,边缘AI的崛起同样也带来了云边端协同挑战。在此过程中,随着应用创新速度加快,应用种类和数量繁多,也会让传统的数据中心基础架构,越来越难以满足行业边缘应用场景的诉求,比如算力的要求、业务实时性、数据的安全与隐私等等,再加上边缘运行环境的严苛要求,在让整个边缘计算市场迎来巨大机遇的同时也面临着更加严峻的挑战。

由此可见,AI的快速发展,在推动行业AI广泛落地的同时,也会使得来自边缘的数据得以快速增长,在此过程中最为重要的AI算力资源不仅需要由传统的数据中心承担,也需要在边缘进行预处理或初步处理,这些新应用和新场景都会让AI算力需求迈入一个全新的时代。

智能产业加速,如何释放AI算力

事实上,深度学习作为这一轮AI产业热潮的主要技术推动力,与经典机器学习算法相比,对计算力的需求高很多。在此背景下,如果企业在应用AI时,仍然通过在一台服务器上插可能多的GPU卡这种简单、粗放的方式实现AI计算平台的构建,显然是难以化解AI算力增长的挑战的,因此戴尔科技认为,新一代AI计算平台的建设,将会向“多样化、集群化、精细化”方向发展。

一是,在多样化方面,主要指的需要引入更加多元化的AI加速芯片技术。可以看到,目前头部AI用户已经在寻找更高性能,或者更高性价比的AI加速芯片技术,包括更多品牌的GPU,以及专门为AI深度学习设计的AI神经网络专用加速芯片(NPU)。

在这方面,戴尔科技已经为行业用户打造了一套端到端的AI基础架构硬件解决方案,包括各类型的AI加速服务器,通过采用GPU/FPGA/CPU/AI专用加速芯片IPU等满足用户的多样化需求。此外,在AI软件平台领域,戴尔科技也提供基础设施硬件与AI框架软件与学习库的适配和优化,并提供针对AI计算集群集中管理及资源调度分配的软件解决方案;同时,针对当前AI计算的热点技术,比如GPU虚拟化、GPU分布式训练,戴尔也提供了针对性的解决方案。

二是,在集群化方面,针对AI计算集群及多机多卡分布式训练,戴尔科技也为行业用户提供包含计算、存储、网络以及框架软件优化在内的整体解决方案,同时还发布了《戴尔科技AI GPU分布式训练白皮书》,为用户在构建AI计算集群及多机多卡分布式训练,提供了更多借鉴和参考的价值。

不仅如此,戴尔PowerEdge服务器家族中,还提供了多款专门针对GPU计算设计和优化的服务器,包括PowerEdge R750xa和PowerEdge XE8545,其中PowerEdge R750xa,可为要求苛刻的新兴工作负载和GPU密集型工作负载提供出色的性能,它可以支持更多的GPU选型,支持NVLink Bridge技术实现GPU高速两两通信;而PowerEdge XE8545则是一款4U机架式实现4块A100 pear-to-pear NVLink全互连的GPU加速服务器,其AI模型训练计算性能提升了5%-15%。

测试数据显示,戴尔科技通过6台PowerEdge XE8545,24张A100的GPU计算集群,运行主流图像分类模型的GPU分布式训练,实现了88%-96%的线性加速比。而在2021年下半年在业界最受关注的AI性能基准测试MLPerf中,戴尔科技在MLPerf Training v1.1基准测试中,提交了一项基于PowerEdge R750xa的分布式训练测试数据,通过采用2台8卡A100,4台16卡A100,运行图像分类的基准测试,同单台R750xa相比,也分别实现了1.96倍和3.63倍的加速效果。

三是,在精细化方面,是否能够实现GPU的算力“切割”,实现更多应用的算力共享的GPU虚拟化技术,同样也是现在很多行业用户构建AI计算平台提出的新需求。

基于此,2021年戴尔科技联合NVIDIA、Vmware推出了AI GPU虚拟化平台解决方案NVIDIA AI Enterprise(NVAIE),在Vmware虚拟化和云原生平台上部署NVIDIA AI及数据分析软件套件。项目中的测试数据也显示,在PowerEdge R750xa与A100 GPU硬件设备上,通过NVIDIA AI Enterprise进行GPU算力“切割”,可以实现与裸金属几乎相当的AI计算速度,也使得该用户的平台在线用户数可以提升几倍。

不难看出,针对行业AI落地中出现的“多样化、集群化和精细化”需求,戴尔科技通过打造一系列端到端的解决方案,同时在产品方面不断“创新求变”,不仅最大化的满足了行业用户对AI算力的需求,同时也加速了行业AI的应用落地进程。

从创新到实践,推动边缘AI落地

正如前文所言,边缘AI也成为了新的发展趋势,同样越来越多的企业也认识到,AI算力资源不仅需要传统的数据中心承担,也需要在边缘进行预处理或初步处理,而这些新应用和新场景都会让整个边缘计算面临新的挑战,因此如何快速、简单、有效地部署,然后安全、高效地运行,同时不牺牲业务及其客户的性能和可用性,也成为了当前边缘AI落地的重要挑战。

针对这些需求,戴尔科技也推出了适应AI边缘计算场景的边缘优化服务器PowerEdge XR11和PowerEdge XR12,同时积极深入行业应用落地场景,利用人工智能技术以及边缘/核心计算解决方案,在边缘AI领域进行了一系列的探索与实践。

以此为基础,戴尔科技还打造了边缘AI智能创新方案——Edge-In-a-Box一体化交付方案,该方案实现了边缘的IT和数据中心基础架构的融合;能够最大限度地减少延迟;且能够实时处理相关数据;支持一体化基础结构部署;具备远程运维能力,同时能够确保100% 正常运行时间,而这套边缘AI智能创新方案也具备三个方面的优势:包括能够通过标准化设计来简化采购和部署流程,预先设计的模块化智能解决方案减少了“系统启动”的成本和时间;通过将电力和制冷及管理的综合能力与行业最好的服务相结合,能为客户提供高性能、高可用性和高效的能源;更为关键的是,通过IT与数据中心基础架构融合,帮助更多的客户满足向其业务和客户快速提供服务的需求。

而在推动边缘AI落地方面,戴尔科技也和国家赛艇、皮划艇队合作,并以新一代实时算力能力为赛艇动作实时捕捉和生物力学分析提供支持,由于国家赛艇、皮划艇队队员会经常前往不同国家和城市的不同训练基地,同时在每个基地进行数周或者数月的划船训练,因此期间的挑战颇为巨大,如不能指望在训练场地有高速、稳定的网络连接,部署的边缘服务器会面临基地潮湿环境的挑战等。

为此,戴尔科技提供的边缘AI智能创新解决方案,通过视频实时捕捉国家队运动员的训练动作,并作出实时分析和判断,纠正运动训练中动作角度、力度,以及稳定性的偏差,帮助赛艇运动员提高训练竞技水平。

值得一提的是,国内的不少“智慧港口”目前也装备了戴尔参与打造的智能化龙门吊系统,运用AI技术,通过多路视频,结合PLC状态信息,融合了防打保龄、防吊起、大车自动纠偏、大车防撞、集卡智能定位、集装箱信息识别、箱底扭锁识别、作区域安全管理八项功能,这样通过“一个大脑、一套传感”,就实现了龙门吊的智能化。

总的来说,在边缘AI解决方案方面,戴尔科技已经能够为客户提供从边缘应用、数据收集、边缘计算与分析、实时分析、数据维护到人工智能深度学习的端到端解决方案,打造最完整的跨边缘、核心和云的解决方案组合,并支持开放生态系统中的各种边缘工作负载。

随着数据的爆发式增长,给企业利用人工智能应用带来了更大的挑战,但同样也给整个市场带来了前所未有的机遇。而在此过程中,戴尔科技集团始终保持着不断地投入与创新,进化与迭代,不仅在数据中心提供“多样化、集群化和精细化”的AI算力方案支撑企业的人工智能应用;同时在边缘端,也提供新一代的实时边缘算力,并打造了边缘AI智能创新方案,驱动企业走向边缘AI时代,可以说让AI真正走向千行百业奠定了关键基础,其价值“不止于现在,更关乎未来。”

推荐阅读
关注数
2396
内容数
432
专注产业互联网、企业数字化、渠道生态以及汽车科技的 观察和思考。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息