欢迎关注软硬件融合公众号:编者按ChatGPT等AI大模型的发展,对算力的需求每两个月增加一倍。OpenAI每年的支出费用高达10多亿美金。如果将ChatGPT部署到谷歌搜索中,需要512,820 个 A100 HGX服务器和总共4,102,568 个 A100 GPU,服务器和网络的总硬件成本超过1,000亿美元。算力,成为制约AI发展的最关键因素。如果算力能...
经常有软件的同学会问到一个尖锐的问题:在超异构软硬件融合的时代,操作系统等软件是不是需要重构,是不是要打破现有的整个软件体系。我赶紧解释:“超异构软硬件融合不改变现有的软件体系,所有的软件该是什么样还是什么样。”
在过去的一年(2022年),软硬件融合公众号的很多文章,都围绕着“超异构计算”这个重要的主题展开。也和很多朋友交流超异构计算相关的话题,大家提到的最主要的一个问题是:超异构和异构的本质区别在哪里?
通过软硬件融合的“纽带”,认识了很多汽车界的朋友。最近半年来,跟很多汽车界的大佬深入交流了汽车底层的软硬件发展。惊奇地发现,汽车软硬件的相关技术,跟数据中心大同小异,非常接近。
去年的时候,抛砖引玉的写了一篇“硬件定义软件?还是软件定义硬件?”的文章,现在再看,发现很多考虑不全面不深刻的地方。继续抛砖,与大家深入探讨此话题。
CPU、GPU和DPU是数据中心的三大芯片,通常情况下:CPU主要用于业务应用的处理,GPU用于性能敏感业务的弹性加速,而DPU则是基础设施加速。站在CPU的视角:一开始所有事情都是我的,然后GPU从我这“抢”过去了一部分工作,现在又出现个DPU来跟我“抢食”。是可忍孰不可忍,必须坚决反击!
软硬件协同,是上世纪90年代提出的概念。在那个时候,系统已经变得相对复杂,需要更加准确严谨的软硬件划分,然后软硬件再协同。
算力网络的概念逐渐深入人心,算力网络的愿景是“让算力无处不在,唾手可得”。这个愿景非常的令人向往,我跟很多朋友探讨过这个话题,也一直试图从软硬件系统的视角分解这个愿景(以待设计更合适的芯片来加速这一愿景落地)。因此,有了今天的这篇文章,来跟大家探讨。
2009年,NVIDIA黄教主发表了影响深远的论断:“NVIDIA是一家软件公司”。这个时期的NVIDIA,已经开始把资源聚焦在GPGPU(GPU是图像加速卡;GPGPU是并行计算平台,既可以做图形加速,还可以做其他并行计算加速),以及支撑GPGPU发展的CUDA之上。随着AI等性能敏感场景的大规模爆发,NVIDIA市值超过了Intel等一众竞争对手,迎...
北京时间,9月21凌晨,NVIDIA GTC 2022秋季发布会上,CEO黄仁勋发布了其2024年将推出的自动驾驶芯片。因为其2000TFLOPS的性能过于强大,英伟达索性直接把它全新命名为Thor,代替了之前1000TOPS的Altan。
将客户均匀分布在不同服务器上,大家的需求都是多元化的,但是将这些需求拼起来之后就是一个相对需求均衡的硬件资源。就是要在硬件设施上尽可能的通用化,虽然没法完全一致化,但是通过一两种类型的服务器可以给用户提供几十种甚至上百种的服务器类型或者是容器的资源类型,这个是可以的。所以我们期望硬件形态下的服务...
跟我们的设想是一致的,我们认为数据中心未来会形成一个统一的处理器,也就是超异构处理器,但是超异构处理器需要chiplet的支持,你可以认为是基于chiplet的片上处理器。个人认为是可以做到的,我们也在努力去做到这个事情。
核心还是软硬件基础技术的软硬件接口,那么在硬件上连接的是什么总线,这些都是一个最底层的总线,传过去的不管是什么,都是最底层的。我们能不能传过去的是上层的一个网络包或者GPU的一整个数据块传送过去。这些东西能不能让底层的总线接管,让CPU不参与这些工作,把这些东西打包起来统一让硬件来做。怎么把上层的任务...
这个是必然的,因为chiplet提供了这么多的资源和设计构造空间,怎么去把它利用好和价值最大化,是非常迫切的。其实就是要通过超异构的融合去做的,异构还不够,的确是需要超异构。如果是简单集成的话,那么意义不大,如果是把各种异构的引擎拼起来会好一些。
具体要看asic是什么,asic有两种概念,一种是指芯片,一种是asic处理引擎,即业务逻辑完全固化的设计。这种asic设计不可能存在,因为业务逻辑太复杂,不同客户的差异性要求长期迭代,所以完全asic的引擎不存在。如果理解成芯片,那么必然是大芯片。
分布式系统是自适应的,这个系统中算法就是分布式的,各自决策自己的事情,大家通过相互影响形成这样一个状态。就像是人类社会一样。最终形成一个自适应的状态,所以不存在一个专门的引擎。专门的引擎本身,会成为问题的瓶颈。
对的,智能网卡就是我们所说的主要实现网络的加速,比如OVS和TOE这种都是属于网络相关的一些加速。在云计算领域,网络是性能最敏感的,网络处理还是蛮复杂的。所以如果用CPU来做的话还是很占CPU资源的,也因此智能网卡是最先出现的,大概就是这样一个原因。
AI目前来说是需要目前去设计一些,但是在一些网络、存储种类场景对这块的需求会弱一些。很多功能不经常变化,很多功能设计出来之后不经常动,所以对编译器的要求就会弱一些。但是并不是说没有,比如做存储的DSA的话用C写程序就足够了,不需要使用其他专用开发语言,然后将适配的软件开发好就可以了。但是AI的话我们需要...
这个观点是我们团队非常认同的一个观点,之前做的都是一个分的趋势,将功能从CPU分出来,但是这些加速器都是孤立的。我们软硬件融合的大背景就是需要把这些孤立的点整合起来。DPU是这个东西整合的第一步或者说是第一款产品,那么未来我们认为这个产品会再组合。也就是说可以通过软件融合把很多东西做得很强大,在有限的...
这个问题是一个业务驱动或者说场景驱动的问题,就是说系统越来越复杂之后呢,可以认为系统上细节性的差异性会越来越多。这样的话如果过于关注细节上的差异性就会使得这个领域或场景越来越碎片化。我们需要把这些差异化抹平,把它变得足够通用性,才会变的可行而能够落地。所以这个事情是一个不得不做的事情。所以并不是...