企业存储技术 · 2023年12月06日

AI 服务器 - 杂谈与闲话

AI的系统厂商>>系统厂商的AI 引子:

这一个AI的系统厂商>>系统厂商的AI  文章出来之后,有好几波朋友都在提问,其中一个比较有深度的在建议“应该写写硅仙人的公司”。其实,平日里对于硅仙人关注不多, 毕竟人家所在的领域计算机架构是个鸿大叙事,真心不能掌控。

今天朋友圈有一个唱衰AI芯片公司的帖子,其实连AI都经历了两次冬天,信息产业的竞争一直很残酷, 习惯就好。

服务器的新气象:

正好这周TMP 发了新作[1], "how-long-before-ai-servers-take-over-the-market", 讲到了基于IDG的数据对于服务器市场的分析。先上图。

image.png

没想到吧,AI服务器的增长速度,其实从今年以来NV的GPU和CX7的紧俏程度应该知道要有一个爆发。LLM的多模态,让太多有自己行业数据的公司和机构进入挖矿的行列。这些公司常用的做法肯定是自己运维自己的数据中心了。之前国内一个头部服务器厂商的数据也是,除了AI服务器以外,其他的服务器的量都在萎缩,因为大部分云厂商已经把自己的服务器的生命周期从3年调整到了5年。

但是就在这样的环境下, Intel本周投资了一家做整机柜的公司oxide [2],公司的灵魂人物是DTrace的作者Bryan Cantrill, 离开SUN之后,在Joynet做云计算,就是10年前在桉树之类的云计算框架很热的时候一家公司。现在出来要做下一代的服务器了。在他2020年斯坦福的演讲中讲了自己的出发点。和我之前讲的一样,服务器真的不思进取了。

image.png

在云计算的大潮下,他认为要继续SUN的FISHworks的精神,做““Fully Integrated Software and Hardware”。他认为要解决的问题:

image.png

解释下来,就是硬件要做openfirmware,软件要用新的语言Rust来重构。BMC,Rack—Scale Design,就这些就可以拿到Intel的投资,只能说Intel风投的确是Intel 自己妥妥的敌人。

image.png

看了一下它家的产品规格,在网站上没看到客户。但是能看到Intel为啥投资它,服务器是AMD最擅长的单路服务器,用的是Intel已经停掉的Tofino 交换机芯片。

image.png

看到这个,我的第一反应就是,这个不就是ODCC的天蝎机柜了,10年前就开始搞了。[3]

image.png

这个,实在想不明白了,Intel这种做法让ZT system以及supermicro作何感想,Intel的CPU现在已经这么不受待见了。

硅仙人的思路:

回到正题,如果AI 服务器的下一步就是这样的话,大家也太不思进取了。

image.png

对于上图的AI 服务器,曾经的Alpha CPU开发者,Apple A4/A5 CPU架构师, AMD K8/K12 Zen的首席架构师, HT 协议的定制者,Tesla的AI加速器架构师, Jim Keller[4]同学是拒绝的。

 了解Jim同学的观点,听他的访谈是最佳渠道,感觉在大部分访谈中,Jim同学是一个非常健谈的人,基本上没有主持人打岔,他可以不断的讲下去,在了解Jim 同学的公司和产品之前,听一下Podcast是大有裨益的。5.

  1. 计算机的架构应该5年一换,从最底层开始重构。
  2. 做芯片,硅的gatecount是不值钱的,摩尔定律基本下晶体管是free,但是芯片上的线很贵, 要处理好。
  3. 英伟达的成功是做了CUDA这样的中间层,他们有大量的工程师做算法和底层硬件之间的优化,他们有CUDA Ninja这样的称号。
  4. 大家要他对比乔帮主和马首富的时候,总是金句妙出。
  5. 他的AMD和Intel做架构的时候,一直强调接口,先定义接口,后做RTL
  6. 他认为GPU的并行是基于Piexls的处理的,每个Piexls之间没有任何联系,因此做并行化很容易,在AI上,特别是使用Pytorch架构,模型要转换成图, 然后做并行处理,GPU的CUDA 的微调的做法无法持续。

image.png

  1. 现在的大模型时代,大家拼命地加参数,为了大参数,拼命加内存的做法不对的(他的老东家的MI300 的128GHBM3 在哭)。
  2. Tenstorrent 这家公司,他是最初的投资者,他认可当时的技术路线。他特意请了Andrej [7] 和LLVM 的Chris Lattner[8]两位软件大师做顾问,定义技术路线。
  3. 作为CPU的顶尖架构师,他认为我们正处在一个好时代,新的并行计算会有一次革命,就像在50年前(1970年代)一样,有大量的新架构出现。[ 笔者的comment]: 的确那个并行1.0 的时代,连现在SC 大会的“Gordon Bell”奖的Gordon Bell 的公司都成为了分母。

并行“计算”1.0

在这里面缅怀一下:(今天的确是一个全体中国人应该缅怀的日子)

image.png

image.png

附上Gordon Bell自己的总结[9], 并行计算和任何一个计算机行业一样残酷。(诺基亚-朗讯-贝尔-阿尔卡特)

image.png

Tenstorrent

问题来了。硅仙人如何在AI时代破局呢? 关键词:异构,芯粒

image.png

基于RISC-V的AI加速器已经成熟。2个做I/O, 3个做计算。在数据传输上使用压缩来提高效率。

image.png

和很多基于网络的高效协议一样,在网络层面实现业务的语义,减少层级,提高NOC的效率。之前的信息是NOC是用arteris的[10]。

image.png

目前在大模型的敦促下,每个做AI系统的人心中的关键字。

image.png

和其他AI芯片公司最大的不同就是,抛弃了之前用的ARC, 硅仙人的优势就是CPU,不能不搞。

image.png

有了GPU和CPU,那DPU也不远了。

image.png

现状:

既然是自己投资,而且Jim已经上船,之前的船长就要考虑二线了。

Ljubisa Bajic

同学找了新方向。

image.png

之前的Chris 同学也拿到了投资。[11] 之前坚持的梦想又进了一步。

image.png

和之前的Sambanova 和Cerebras 不太一样,Tenstorrent好像没有拿到国家实验室的订单,只是在一个法国里昂的小公司有一些落地。但是不要紧,作为硅仙人,口袋满满的韩国同学已经下场了。[12]

    

[1]https://www.nextplatform.com/2023/10/23/how-long-before-ai-servers-take-over-the-market/
[2]https://siliconangle.com/2023/10/26/intel-backs-44m-round-private-cloud-infrastructure-startup-oxide-computer/
[3]https://aijishu.com/a/1060000000137413
[4]https://en.wikipedia.org/wiki/Jim_Keller_(engineer)
[5]https://www.sigarch.org/other-announcements/episode-11-of-computer-architecture-podcast-released-featuring-guest-jim-keller/
[6]https://lexfridman.com/jim-keller-2/
[7]https://tenstorrent.com/research/the-classic-andrej-software-2-0/
[8]https://tenstorrent.com/research/asplos-keynote-the-golden-age-of-compiler-design-in-an-era-of-hw-sw-co-design-by-dr-chris-lattner/
[9]http://gordonbell.azurewebsites.net/Supers/Supercomputing-A_Brief_History_1965_2002.htm?from=https://research.microsoft.com/en-us/um/people/gbell/Supers/Supercomputing-A_Brief_History_1965_2002.htm&type=path
[10]https://www.arteris.com/press-releases/tenstorrent-selects-arteris-ip-ai-high-performance-computing-datacenter-risc-v-chiplets
[11]https://www.modular.com/blog/weve-raised-100m-to-fix-ai-infrastructure-for-the-worlds-developers
[12]http://www.dianzixinpian.com/news/2023/606.html

作者:唐杰账号
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5557
内容数
239
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息