策划/LiveVideoStack
当下,我们正处于一个超视频化的时代。
谷歌曾预测,未来互联网80%的内容呈现方式将是视频。视觉化的信息代替了繁琐、晦涩、冗长的文字、数据或符号,能够更直观地反映信息的实质,更直接地促成信息传授双方的交流。
苹果之父乔布斯曾经说过:“在较低的带宽下,人们传递的是信息,更高的带宽将用来传递情感。”
英特尔披露过一项数据,表明了现在大数据90%以上来自非结构化数据。以视频和图片为主,视频数量与用户的快速增长对带宽和性能带来巨大压力,如何进行优化是很大的一个难题。
如你所见,当视频直播时延从20s下降到3s再下降到1s,200ms~400ms的实时音视频让视频会议、在线K歌、互动连麦等场景成为现实,不断刷新记录的时延、画面质量标准,为用户带来了更强的沉浸式和交互性等体验。
这背后,是以视频云为基础的整个技术体系的打造。
那么,问题来了,制约和促进视频云技术的发展底层逻辑到底是什么?
一、好的视频云体验该具备什么?
视频云,顾名思义是指以音视频生产、处理、传输、消费为主要应用场景的云计算细分赛道。
对于行业内的玩家们来说,目标就是提供给用户们超高清和超低时延、强融合的视频平台,达到这一目标为之付出的努力,是需要云厂商们拥有强大的底层算力支持, 以覆盖以编码、内容分析、内容生成(如AIGC)等为代表的技术所带来的高算力的需求。
的确,数据、算力和算法,是人工智能发展的三大要素。不过要承认的是,当下人工智能模型训练对算力的要求,原有的单一的CPU或GPU的单架构形态已经无法完全满足,所以,很多企业在训练模型或者推理部署的时候往往会采用CPU以及和CPU不同架构的多种加速器件,即异构计算的方式来解决。
异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU、DSP、ASIC、FPGA等。
面对多样的处理需求,选择异构计算的优势在于,一方面能减小开发人员在软件开发时的编程难度,另外一个则是有效降低产品研制和维护成本。
要补充的是,异构计算也已不是新概念,随着AI应用的快速发展,异构计算早就引发了一场算力革命。
2016年左右,全球异构计算领域的市场格局就呈现三强鼎力的态势,以AMD、高通、三星等为主体的企业,属于全球异构计算系统HSA联盟;以IBM、谷歌、英伟达为主的企业,则属于OpenPOWER联盟,最后,以英特尔自己为主导的则是划分在异构计算体系内。
不同联盟阵营所在的企业各有千秋,我们不去做过多评判。但今天在异构计算的带动下,一个显而易见的趋势是,HSA逐步代替了传统的ISA,而SoC、3D异构封装成为芯片设计厂商的主流选择,这也证明,厂商们不再拘泥于固有的摩尔定律约束。
正如英特尔中国研究院院长宋继强曾在采访中所表示,如果说传统计算架构是一种烧汽油的引擎,那么异构计算就是一种混合动力引擎甚至新能源引擎,并且“动力十足”,能够推动人工智能、5G等新兴领域更好、更快地发展。
当然,为了更好满足终端用户的视频体验需求,各家企业希望能解锁更多的音视频玩法、功能,来推动业务增长。
比如在我们熟悉的短视频场景里,需要拍摄剪辑—美颜特效—云端存储—转码处理—分发—播放全流程能力,由此可见,不仅仅是视频的云端处理能力,还有全链路、端到端的音视频能力,这包括云端处理,也包括客户端SDK。
随着音视频行业发展,终端用户对即使体验的要求也愈发高涨,不得不承认的是,企业在不断推出视频业务的新模式和玩法同时,会遇到很多挑战——
譬如,集成难度会更大、开发周期长、音画质要求高等,所以,比起企业内部业务上新,常被用户灵魂拷问的业务创新能力,才是终极目的。
二、扩展摩尔定律的边界
MIT在《Science》发布的文章中,一项观点指出,后摩尔定律时代,算力提升将更大程度上来源于计算堆栈的“顶层”,即软件、算法和硬件架构。
硬件能力固然重要,打造异构计算同时还需要构建软件能力,好的体魄需要简单有趣的灵魂。
英特尔用行动证明了“软硬结合”不再是乌托邦。
首先是GPU+CPU的布局上——英特尔在今年3月时做出了个大胆的决定——它宣布将在未来一年半内取消多款服务器GPU产品的发布计划,其中包括HPC级的Rialto Bridge GPU,以全力开发基于Falcon shores的混合芯片。
这款新一代的Falcon Shores专为超级计算应用而设计,将CPU和GPU技术结合到一个芯片封装中,届时将作为纯GPU架构面世。
Falcon Shores代表了英特尔异构架构设计的延续,其最终目标是每瓦性能提高5倍,x86插槽计算密度提高5倍以及现有服务器芯片的内存容量和带宽提高5倍。有观点认为,英特尔的高性能计算CPU和GPU路线图与Falcon Shores汇合,表明这些芯片将在未来同时发挥这两个作用。
英特尔此前提出过“超异构计算”的概念,它不仅在架构上,也在封装与制程中,将超异构计算融入其中。以“Foveros”3D封装技术为例,相比SiP只能实现逻辑芯片与内存的集成,“Foveros”可以在逻辑芯片与逻辑芯片之间实现真正的三维集成,使得芯片面积更小,同时保证芯片间的带宽更大、速度更快、功耗更低。
并且,在今年初的1月,英特尔发布了第四代英特尔®至强®可扩展处理器,以及Intel数据中心GPU Max系列Ponte Vecchio。
像Sapphire Rapids 是英特尔首个基于 Chiplet 设计的至强处理器,包含 52 款 CPU,最多支持 60 核,采用 Intel 7 工艺制造,还支持了 PCIe 5.0、DDR5 内存和 CXL 1.1 接口(type 1 and 2 devices),提供最多 80 个 PCIe 5.0 通道、最高支持 1.5TB 的 DDR5-4800 内存,TDP 最高达 350W。
与市场上其他数据中心处理器不同,第四代至强家族极大地扩展了英特尔专门构建的工作负载优先战略和方法。
要知道,视频的渲染本来就是严重倚仗硬件的工作,渲染速度和质量的提升,主要依赖于GPU工艺、性能以及配套软件的提升。
另外很重要的一点是,站在使用用户的角度来说,更想避免处理器因技术而跟不上体验所带来的更换成本。
挑战和机遇往往并存。
当新的技术浪潮来临,异构计算带来的硬件复杂性难题,对编程行业的工作人员来说是场新的升级打怪过程。因为毕竟CPU、GPU、FPGA等不同芯片的开发模式和语言、API等均不同,这就导致如何同时发挥多种XPU的性能,是个巨大的难题。
至少在目前看来,针对异构计算面临的几大瓶颈就有:数据在异构环境的协同问题、需要统一各个厂商芯粒之间的互连标准等。
所以,英特尔一方面持续加强硬件、架构、封装、制程的能力,以此来强大规模生产制造能力,从而持续扩展摩尔定律的边界。
另一方面,在此基础上,英特尔推出了oneAPI,据悉,oneAPI可以简化并且统一跨不同架构、跨不同厂商之间的编程,它是一个鼓励社区和行业支持的一种开放、标准的解决方案。对软件开发者来说,这能让工作效率更高,更轻松。
公开数据显示。拥有超 20 万次用户安装,300 多个应用程序运行。
其中的工具包之一是英特尔 one API rendering Toolkit--以高保真的可视化方式进行渲染,Intel Embree v4.0版本的渲染工具包提供了对英特尔 Arc GPUs的额外支持,全新的英特尔开放路径指导库(Open PGL)组件, 以及英特尔OSPRay工作室的新功能。
其他软件层面的还有SVT系列编码器,让使用者可以拥有低成本的转码解决方案,实现性能、延迟和视觉质量之间的最佳平衡,并减少视频应用的开发强度和时间。
英特尔的PyTorch也不逊色。在AI方面,与前一代相比,通过内置英特尔® AMX,第四代英特尔® 至强® 可扩展处理器将 PyTorch 实时推理和训练性能提升了 10 倍,并将广泛的 AI 工作负载的推理和训练性能提升到新的高度。而英特尔® 至强® CPU Max系列在这些功能的基础上,针对自然语言处理进行了扩展,将大型语言模型的处理速度提升多达 20 倍。
然后是OWT。英特尔推出了面向内容共享和协作的Unite解决方案,能够通过无线连接显示器、员工和混合技术环境,帮助企业轻松创建、管理一个安全的内容共享和协作平台;英特尔Open WebRTC Toolkit (OWT)可支持高达4k分辨率的视频会议,以及超过64位参与者参加i大型会议,另外,OWT还针对英特尔架构进行了优化,能够充分利用英特尔硬件加速技术进行视频的编解码及缩放,加强端到端的智能视觉协作体验。
IDV是英特尔打造出的超能云终端解决方案中的一部分,主要对标VDI云桌面现有问题,对云桌面产品的性能及稳定性等方面进行了强化。
这也是为什么Intel以硬件为名,却维持着超过一万人的软件研发团队。
谈到摩尔定律,这是英特尔创始人之一戈登·摩尔所提出的经验法则,描述的是人们付出努力所获得的结果,与一些物理学定律不同,它体现的是主观能动性。正因如此,架构师、工程师们一直在尽自己最大努力通过工艺创新、封装创新和架构创新来延续摩尔定律。得益于持续的技术进步,让摩尔定律并没有死。
说到最后,英特尔即将到来的至强实战公开课也值得期待——
2023年6月28日,英特尔联合行业其他技术媒体以及字节火山引擎共同打造的线上公开课系列视频,针对云厂商、政府与大企业,提供有启发、可借鉴的实战案例。基于第四代英特尔®️至强®️ 落地实践,持续为IT决策者、数据科学家、架构师输出最前沿的技术干货内容。
这都让我们拭目以待。👇