Hot Chips上的重要技术信息
芝能智芯出品
在2023年的Hot Chips 35大会上,SK hynix主要讲解内存领域的专业知识,介绍如何解决当今大规模计算领域人工智能的主要需求。SK hynix展示了其在领域特定内存上的“内存中心计算”工作,在寻找方法来缓解当前人工智能计算面临的最大挑战之一,即内存容量和带宽与可用计算资源之间的关系。本文主要收集这次系统性的介绍,并且做一些表述。
SK hynix面临的问题是这样的:生成式人工智能推理的成本非常高昂,不仅仅涉及到人工智能计算,还包括功耗、互联和内存,这些因素也在很大程度上推动了成本的增加。
●大型Transformer模型对计算和内存的需求
特别是对于大型Transformer模型,内存是一个主要挑战,模型需要大量数据,通常受到内存容量和带宽的限制。
SK hynix认为AI硬件行业需要的不仅仅是内存,还需要包括内置计算功能的不同类型的内存,其中包括领域特定内存,一直在努力成为内存计算提供商,这是提高价值链的方式。
●“内存中计算”或称为SK hynix AiM
在GDDR6内存中,每个内存块都有自己的1GHz处理单元,能够提供512GB/s的内部带宽。
在内存中进行矩阵-向量乘法(GEMV)以进行人工智能计算,权重矩阵数据来自内存块,而向量数据来自全局缓冲区。
内存中的AiM使用特定的内存命令进行计算。
内存的扩展性,以及大型语言模型所需的内存中AiM计算资源。
使用这种AiM的情况下,主要挑战是需要在软件端进行映射,为AiM设计硬件架构,然后提供接口,这是采用这种技术的另一个主要障碍。
研究如何将问题映射到AiM
系统架构需要能够处理规模化和扩展性
AiM架构的关键组件包括AiM控制器、可扩展多播互连、路由器、计算单元(ALU)和指令序列控制器。
矩阵向量累积函数对人工智能工作负载至关重要,AiM使用一种类似CISC的指令集来管理这些函数。
优化:在新的架构中,通常存在可以利用的微妙差异来获得更好性能的方法
SK hynix不仅仅在抽象层面上讨论了AiM技术,展示了使用两个FPGA的GDDR6 AiM解决方案的概念验证。
AiM软件堆栈
SK hynix用来验证概念,仍然处于评估阶段,对这种解决方案与传统解决方案进行不同类型的分析。这是一个未来可能发展的方向。