半导体行业观察 · 12月10日 · 安徽

一条芯片“新”赛道,悄然崛起

GPU超越了CPU。这也意味着,在计算领域,专用计算打败了通用计算。然而,尽管专用计算的优势日益明显,仍有一部分初创公司坚持走通用计算的道路,力图通过创新突破当前架构的瓶颈,重新定义处理器的未来。在这个日益分化的计算时代,通用计算是否依然有机会与专用计算一较高下?一些雄心勃勃的初创公司正在投入巨资和大量的研发力量,试图通过开发全新的通用处理器架构来挑战现有格局。

通用处理器的黄金时代

回顾过去,通用处理器(CPU)曾在计算领域主宰了数十年。在70年代到90年代,CPU曾是几乎所有计算任务的主力。

1971年,英特尔发布了4004处理器,这是世界上第一款商用微处理器,标志着计算机技术的一个新纪元。随后,英特尔在1974年发布的 8080 处理器,以及其后续的 x86 架构,为个人计算机(PC)提供了强大的处理能力。

1981年,IBM个人计算机(IBM PC)的发布,将基于 x86 架构的通用处理器推向了全球市场。

进入1990年代,随着互联网的崛起和计算需求的多样化,Intel 和 AMD 等公司继续推动 x86 架构 的发展,通用处理器的市场份额不断扩大。英特尔的 Pentium 处理器系列(1993年推出)标志着高性能计算的到来。此外,90年代的企业级服务器和数据中心也开始大量采用基于 x86 架构的通用处理器。这一时期,通用处理器不仅在桌面和办公应用中占据主导地位,也逐渐成为服务器、数据中心以及高性能计算(HPC)领域的主力。

从 2000年代后期开始,随着 GPU 和专用加速器(如 TPU、FPGA)的崛起,计算界的天平开始发生倾斜。

进入AI时代,计算需求呈现出爆炸式增长。深度学习等AI算法对计算资源的需求远远超过了传统应用。GPU凭借其高度并行的架构,在训练和推理大规模神经网络方面表现出色,成为了AI训练的“标配”。这一时期,GPU在图形处理、科学计算以及机器学习等领域的表现,逐渐超越了传统的CPU。与此同时,各种专用集成电路(ASIC)也在不断涌现,针对特定AI算法进行优化,进一步提升了计算效率。

尽管GPU和ASIC在特定领域的优势非常明显,但它们也有不可忽视的缺点。首先,GPU 和 ASIC 是专为某些特定任务设计的,缺乏通用性和灵活性。如果面对复杂的计算任务或需要多种计算能力的应用,GPU 和 ASIC 就显得不那么高效。此外,GPU 和 ASIC 的开发和生产成本较高,且其硬件架构通常与现有的计算环境不兼容,这使得大量企业在进行硬件更新时面临着较高的技术门槛和经济成本。

正是这些缺口,令一些初创公司找到了弯道超车的着力点。在AI时代的快速洗礼下,数据中心的挑战和痛点愈发凸显:居高不下的功耗、较低的服务器利用率以及难以跟上需求的处理器性能。

初创公司Tachyum:

各种PU大乱炖,能成吗?

初创公司Tachyum提出了一种大胆的愿景:将超大规模数据中心转变为真正的通用计算中心

他们是如何做的呢?Tachyum推出了一种新型通用处理器,将CPU、GPGPU 和 TPU的功能统一到单个单片设备中,无需昂贵且耗电的加速器,而是通过使用与软件可组合性和服务器资源的动态重新分配相一致的简单同质软件模型来最大限度地提高利用率,以此来满足云和 HPC/AI 工作负载的高需求。该架构速度更快、功耗降低10倍、成本仅为竞争产品的 1/3。

下图是早期(2022年)Tachyum公司对Prodigy架构的构思,它集成了128个自定义的 64 位 CPU 核心,运行频率最高可达 5.7 GHz,有十六个DDR5内存控制器,支持最高DDR5-7200,和64条PCIe 5.0 通道。CPU、内存控制器和I/O通过Tachyum自定义设计的10 Tbps非阻塞全网状互联网络连接在一起。Prodigy提供了一种尖端的“系统芯片”设计,平衡了高性能的CPU 核心、内存、I/O和互联子系统。

Prodigy设备架构图(来源:Tachyum Prodigy架构白皮书,2022)

Prodigy采用独特的“半芯片(half-chip)”设计,使得这款128核的设备可以作为两个独立的64核设备工作,每个设备配备8个DDR5内存控制器、32条PCIe 5.0通道、独立的电源平面,并具备单独启动的能力。这带来了多个好处。首先,从客户的角度来看,两个功能设备可以部署在一个单一封装中,节省成本、板空间和功耗,并为系统和板设计者提供灵活性。从运营的角度来看,这种架构为Tachyum提供了更高的64核芯片良率。如果“北半部分”出现问题,可以将芯片旋转180度,“南半部分”将成为正常工作的 64 核设备。

Prodigy设备布局主要功能模块(来源:Tachyum Prodigy架构白皮书,2022)

Tachyum在白皮书中指出,处理器性能停滞不前的根本原因是处理器硅片上的线路延迟增加。随着硅片工艺的缩小,晶体管的速度加快,但线路的速度却减慢了,我们现在正处于性能受到线路延迟限制的阶段。由于线路的电阻率是线路横截面积的函数,因此电阻率会随着工艺缩小的平方而增加,工艺几何尺寸每减小10 倍会导致电阻率增加100倍,这与线路延迟成正比。业界的方法是从铝互连转换为铜互连并使用低 K 电介质,这确实有所帮助,但线路延迟仍然是限制处理器性能一代一代提升的主要因素。

为了解决过去二十年中由于工艺缩小导致晶体管加速但导线变慢,从而导致处理器性能停滞的问题,并且最大化性能、可扩展性和灵活性、最小化总拥有成本(TCO),Tachyum 为其Prodigy处理器开发了新的指令集架构(ISA)。该架构结合了RISC(精简指令集和CISC(复杂指令集)的特点,但没有包含许多 CISC 处理器中常见的复杂和/或变长的低效指令。所有指令的宽度为 32 位或 64 位,其中一些指令还包括内存访问,以优化性能。Prodigy ISA 包含大量的向量和矩阵指令,这些指令优化了向量和矩阵运算的性能和效率。新ISA通过将执行单元感知(execution unit awareness)引入指令集架构,从而使Prodigy微架构和 Prodigy 编译器能够协同工作,避免了执行单元之间消耗大量功耗的数据传输,并减少了芯片内延迟。

最初Prodigy系列处理器包括128核、64核和32核的型号,而在最新的产品披露中,Prodigy对其产品构想进行了全面的升级:Prodigy SKU家族包含192核、96核、48核多个型号,适用于从超算到大规模AI、超大规模数据中心和边缘服务器等各类应用。TDP(热设计功耗)范围从48核入门级的150 W,到顶端型号的950W。

Prodigy各型号的规格(来源:Tachyum)

Prodigy的竞争卖点在哪里呢?据该公司白皮书的分析,其统一架构通用处理器直接与CPU和GPGPU竞争。

下图显示了Prodigy、Nvidia H200 GPU和 ntel Xeon 8380 CPU之间的正面对比,展示了 Prodigy 通用处理器如何与CPU和GPU架构直接竞争。比较结果表明,与 H200 GPU 和 Intel Xeon 8380 CPU 相比,Prodigy 在多个工作负载和数据类型下提供了更高的性能和每瓦性能。

具体而言,Prodigy比 Intel Xeon 8380拥有3倍的CPU核心数,主频是8380的2.5倍,内存带宽约为8380的20倍。Prodigy的Specrate 2017整数得分是8380的4倍,而 Prodigy 的FP64峰值性能是8380的30倍。

与Nvidia H200比较,Prodigy的16条DDR5-7200通道和带宽放大技术提供了约 2TB/sec 的带宽,同时保留了支持大内存和扩展性的灵活性,DIMM 可提供较大的内存支持。H200 使用 HBM3 提供 3 TB/sec 的带宽,但将内存足迹限制为 80GB 的固定内存。Prodigy 和 H200 都支持从 FP64 到 FP8 的多种数据类型,并且都支持 4:2 稀疏性。但与 H200 不同,Prodigy 除了支持 4:2 稀疏性外,还支持 8:3 超稀疏性,提供了更高的性能,仅有轻微的精度折衷。此外,Prodigy 拥有更大的缓存,减少了对 DRAM 带宽的需求。Prodigy 还支持 TAI(Tachyum AI),一种新的数据类型,能提供更大的性能提升。

为了全面了解 Prodigy的能力,一个1.6万亿参数的Switch Transformer 需要 52 个 NVIDIA H200 80GB GPU(每个成本为 41,789 美元)和7个Supermicro GPU服务器(每个成本为 25,000 美元),总成本为 2,348,028 美元。而该公司声称,一个配备 2TB DDR5 DRAM的Prodigy单个插槽系统可就以容纳和运行如此大的模型,成本仅为23,000美元,这仅是英伟达方案成本的1/100。如果真如此,这将是一个颠覆性的通用处理器。

理论上都很美好,但是目前Tachyum公司最大的问题是,尚没有实际的产品出来。Prodigy的推出时间一再延迟,今年推明年。Prodigy通用处理器最初计划于2019年推出,并于2020年上市。然而它不断推迟,推迟到2021年,然后是2022年,然后是2023年。最新的消息是,据该公司称,采用5nm工艺的Prodigy处理器将于明年流片和量产。一个小插曲是,此前该公司还起诉了EDA公司Cadence,说他们的设计未能满足性能目标。

据报道,Tachyum已收到一份大型采购订单,用于构建一个大型系统。据Tom's Hardware报道,Tachyum还计划于 2026 年发布 Prodigy 2,这是一款使用 PCIe 6.0 和 CXL 的 3nm 处理器,以及高带宽内存 (HBM) 3 RAM。

我们也希望明年真的能见到这款强大的通用处理器。

Ubitium:通用RISC-V微处理器

德国初创公司Ubitium,这家公司成立于2024年。创始人的履历颇丰:董事长/联合创始人Peter W Weber层就职于英特尔、德州仪器、Siliconix等;首席执行官/联合创始人Hyun Shin Cho;首席技术官/联合创始人Martin Vorbach在大学期间创办了自己的第一家微处理器公司。他创办了可重构处理器(FPGA)领域的领军企业 PACT XPP Technologies。PACT 的技术已授权给所有美国主要半导体公司,马丁名下拥有200多项专利。

Ubitium旨在通过引入完全与工作负载无关的通用处理器架构从根本上改变计算格局。首席技术官Martin Vorbach花了15年时间开发这一通用处理器架构。Ubitium的通用处理器架构代表了计算行业的一次重大创新,它挑战了现有的处理器设计范式。

通用处理器阵列(来源:Ubitium)

传统的微处理器往往需要为不同的计算任务,如图形处理、人工智能计算等,设计专门的硬件核心。而Ubitium希望通过同质、与工作负载无关的微处理架构,用单一、多功能的芯片取代传统处理器(CPU、NPU、GPU、DSP 和 FPGA)来处理所有工作负载,该架构基于开源指令集 RISC-V,旨在通过统一的设计,不仅使处理器尺寸更小、能效更高,而且大幅降低成本,使其能够适应各种应用场景。

Ubitium的设计灵感源于当前计算机体系结构面临的瓶颈,特别是在硬件资源的高效利用 方面。当前许多处理器架构面临着不必要的“琐碎管理”任务——这些任务占用了大量硬件资源却并未直接提高性能。此外,许多高效计算技术,如同步多线程,往往需要额外的硬件开销来支持,这就导致了更高的能耗和复杂性。

过去数十年来,芯片技术的进步主要围绕尺寸展开,晶体管变得越来越小,因此通过整合更多晶体管,微处理器的功能也变得更强大。然而,设计并没有发生根本性改变。Ubitium通过重新设计处理器的内部结构,消除了这些不必要的开销,从而提高了性能。除了架构创新外,Ubitium还计划推出多个芯片型号,涵盖从小型设备到大型计算系统的不同需求。这些芯片的阵列大小可以不同,但它们都基于相同的架构和软件平台。

目前,该公司拥有 18 项基于 FPGA 仿真的原型技术专利,并正在开发一系列芯片,这些芯片的阵列大小各不相同,但共享相同的底层通用架构和软件堆栈。Ubitium所开发的通用芯片目标市场是边缘或嵌入式设备,帮助企业将部署成本降低100倍。不过,该公司强调,该架构具有高度可扩展性,未来也可用于数据中心。

虽然Ubitium的产品听起来像是FPGA,比如都强调硬件灵活性和可重用性,但它并不是传统意义上的FPGA。相比FPGA,Ubitium的处理器并没有依赖于“硬件仿真”或“动态硬件配置”的方法,而是通过统一的架构和核心资源来实现不同功能。

2024年11月21日,Ubitium获得了370万美元种子资金。这笔投资将用于开发首批原型并为客户准备初始开发套件,首批芯片计划于2026年推出。不过,在短短两年内推出一个旨在“彻底改变”行业的架构至少可以说是具有挑战性的。目前的370万美元几乎可以肯定不足以让 Ubitium的“突破性”芯片起步。通常,芯片进入流片阶段需要花费数亿美元。

前路挑战不可忽视

无论是 Tachyum 还是 Ubitium,它们选择开发通用处理器的原因,都来自于计算需求的复杂性和多样化。传统的计算架构,如 CPU、GPU 和 FPGA,虽然各自在特定领域中表现突出,但它们的组合和协同工作往往带来额外的成本和复杂性。尤其是在 AI、大数据和高性能计算(HPC)日益普及的背景下,数据中心和云计算需要一种更高效、更灵活、更具成本优势的解决方案。

但初创公司来做通用处理器还是会面临很大的挑战:

技术实现:要在同一个芯片上处理多种计算任务(如图形处理、AI 推理、高性能计算等),需要精心设计架构,确保每种任务的计算能力都得到充分发挥而不互相干扰。Tachyum提出的架构仍处于早期阶段,并且已经经历了多次延期。产品是否能按计划交付,以及它是否能在竞争激烈的市场中脱颖而出,仍然是一个巨大的不确定性。

市场接受度:尽管他们的芯片可能在性能上具有优势,但市场对新架构的接受度仍然是个问题。尤其是在传统的 CPU 和 GPU 仍占据主流地位的情况下,新型的通用处理器是否能够与 NVIDIA、Intel 等成熟厂商的产品竞争并获得广泛采用,仍有待观察。

成本与规模化:即便后进者都宣称其芯片在成本和功耗优势显著,但要实现大规模生产并降低成本,需要巨额的研发和生产投资。处理器的制造和流片成本通常非常昂贵,因此资金的稳定和筹措将是其成功的关键因素。

Tachyum和Ubitium都在试图解决计算领域的一个重要问题:如何整合多种处理功能,提供更灵活、更高效的解决方案。尽管两者的技术愿景非常吸引人,但在实现过程中面临的技术挑战、市场接受度以及资金问题都不容忽视。要想在竞争激烈的半导体市场中脱颖而出,除了技术突破,还需要强有力的资金支持和客户认可。

小结

强如英特尔和AMD,在AI的浪潮中,都有点招架不住,初创公司能否掀起浪花?在这个风云变幻的时代,通用处理器能否重夺王座呢?结果尚未知。

但可以明见的是,这条芯片“新”赛道,已经悄然崛起。

推荐阅读
关注数
11318
内容数
1959
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息