编者按云计算已经发展了20年,是到了变革的时候了。但变革成什么样子,目前还在混沌中。未来将形成的新的业态,我们姑且称之为“算力网络”吧!趁着AI大模型的东风,智算基础设施建设如火如荼。以智算(智算”力”,是算力的一个子集)为重心,更综合更全面的算力网络和算力中心建设,24-26这几年会是一个高潮。目前,行业发...
一直以来,我都认为算力网络是行业整合的过程,通过算力网络运营商把全国的算力资源统筹到一起,形成高效的统一算力供应。但与此同时,总感觉这种模式不对。算力芯片技术日新月异,从底层芯片,到上层业务,方方面面创新迭代极为迅猛。完全统一的算力供应根本跟不上技术创新的步伐。
编者按2023年12月底,由国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局五部门联合印发的《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》正式公布。算力网络是未来数字经济发展的核心基础设施。要想实现算力网络的伟大愿景,还有非常多的底层技术挑战需要解决。接下来若干篇系...
编者按前面专门写过一篇“软硬件融合”的系统性介绍文章,之后有很多朋友私信交流。不断汲取大家对软硬件以及软硬件相互协作方面的观点,逐步深化和完善“软硬件融合”概念和技术体系。简单总结一下。一方面,大家对未来认识的大方向是趋同的,就是“软硬件要深度结合/协同”。但另一方面,对软硬件融合观点的认识,也存在如下...
编者按AI大模型的热潮不断,预计未来十年,AGI时代即将到来。但目前支撑AI发展的GPU和AI专用芯片,都存在各种各样的问题。那么,在分析这些问题的基础上,我们能不能针对这些问题进行优化,重新定义一款能够支持未来十年AGI大模型的、足够灵活通用的、效率极高性能数量级提升的、单位算力成本非常低廉的、新的AI处理器类...
编者按作为技术类的公众号,今天这篇文章,我们聊点技术之外的一些更宏观的发展话题:)最近跟一个朋友,交流了一些不那么“纯技术”的话题:后进如何赶超先进?在交流的过程中,也引发了我对技术发展的一些更深层次的思考。关于后进赶超先进,网上有太多的文章和视频。作为常年从事计算机算力芯片相关工作的我,今天就从...
编者按大家一直有个误解,觉得通用和专用,是对等的两个选择。例如,牧本波动(Makimoto's Wave),是一个与摩尔定律类似的电子行业发展规律,它认为集成电路有规律的在“通用”和“专用”之间变化,循环周期大约为10年。我们的观点则是:相比专用,通用是更高级的能力。集成电路等各种事物发展规律的常态是通用,“通用到专...
编者按关于“弯道超车”,行业内很多人士对此嗤之以鼻,他们认为:做事情要脚踏实地,持之以恒,才有可能超越。但这两者并不矛盾:在已有的不断发展的领域,我们需要“数十年如一日”不断的努力,才有可能逐渐追赶上世界先进水平,才有可能从追赶到齐头并进甚至超越;比如航天科技领域。但在一些行业变革期,我们需要尽早布...
随着ChatGPT的火爆,AGI(Artificial General Intelligence,通用人工智能)逐渐看到了爆发的曙光。短短一个月的时间,所有的巨头都快速反应,在AGI领域“重金投入,不计代价”。
GPT等大模型为什么没有突破万亿参数?核心原因在于在现在的GPU平台上,性能和成本都达到了一个极限。想持续支撑万亿以上参数的更大的模型,需要让性能数量级提升,以及单位算力成本数量级的下降。这必然需要全新架构的AI计算平台。
三大运营商都在积极地推广“算力网络”的相关技术概念落地,互联网公司有类似的概念叫“分布式云”。个人理解,两个概念的技术实现基本相同,不同点在于:算力网络站在基础计算环境的视角,着眼于算力资源的整合;分布式云从业务服务的视角,着眼于计算以何种形式提供。
我们介绍了一种新的处理器类型:超异构处理器HPU,公众号文章链接:一种新的处理器类型:通用超异构处理器。HPU可以理解成多种异构融合而成的一种新型的计算架构。
欢迎关注软硬件融合公众号:编者按ChatGPT等AI大模型的发展,对算力的需求每两个月增加一倍。OpenAI每年的支出费用高达10多亿美金。如果将ChatGPT部署到谷歌搜索中,需要512,820 个 A100 HGX服务器和总共4,102,568 个 A100 GPU,服务器和网络的总硬件成本超过1,000亿美元。算力,成为制约AI发展的最关键因素。如果算力能...
经常有软件的同学会问到一个尖锐的问题:在超异构软硬件融合的时代,操作系统等软件是不是需要重构,是不是要打破现有的整个软件体系。我赶紧解释:“超异构软硬件融合不改变现有的软件体系,所有的软件该是什么样还是什么样。”
在过去的一年(2022年),软硬件融合公众号的很多文章,都围绕着“超异构计算”这个重要的主题展开。也和很多朋友交流超异构计算相关的话题,大家提到的最主要的一个问题是:超异构和异构的本质区别在哪里?
通过软硬件融合的“纽带”,认识了很多汽车界的朋友。最近半年来,跟很多汽车界的大佬深入交流了汽车底层的软硬件发展。惊奇地发现,汽车软硬件的相关技术,跟数据中心大同小异,非常接近。
去年的时候,抛砖引玉的写了一篇“硬件定义软件?还是软件定义硬件?”的文章,现在再看,发现很多考虑不全面不深刻的地方。继续抛砖,与大家深入探讨此话题。
CPU、GPU和DPU是数据中心的三大芯片,通常情况下:CPU主要用于业务应用的处理,GPU用于性能敏感业务的弹性加速,而DPU则是基础设施加速。站在CPU的视角:一开始所有事情都是我的,然后GPU从我这“抢”过去了一部分工作,现在又出现个DPU来跟我“抢食”。是可忍孰不可忍,必须坚决反击!
软硬件协同,是上世纪90年代提出的概念。在那个时候,系统已经变得相对复杂,需要更加准确严谨的软硬件划分,然后软硬件再协同。
算力网络的概念逐渐深入人心,算力网络的愿景是“让算力无处不在,唾手可得”。这个愿景非常的令人向往,我跟很多朋友探讨过这个话题,也一直试图从软硬件系统的视角分解这个愿景(以待设计更合适的芯片来加速这一愿景落地)。因此,有了今天的这篇文章,来跟大家探讨。