烟烟(陶冶) · 1月5日 · 上海市长宁区

Kinara Eyes GenAI:新一代边缘AI芯片Ara-2

 title=
                                                                                                                                                                                                                           Kinara 边缘AI芯片
                                                                                                                                                                                                                                   芝能智芯出品

生成式人工智能(AI)过渡到各行各业使用的时候,边缘计算被认为是充分发挥其潜力的关键,Kinara公司最近发布了其第二代边缘AI加速器——Ara-2,该芯片在仅有6W功率的范围内运行,可支持高达300亿个(INT4)参数的生成AI模型。
 title=

Kinara公司的CEO Ravi Annavajjhala认为,“让生成式人工智能充分发挥作用的唯一方法是降低成本,而这正是我们所提供的。通过将生成式人工智能引入边缘,我们能够实现更高的处理效率,从而降低成本,并显著提升隐私和可靠性。”

Ara-2芯片专门为边缘生成AI工作负载而设计,其功耗范围在6W之内,不仅可以每秒生成数十个令牌,还可以在10秒内进行20次迭代,展示了其在边缘服务器和边缘设备应用程序中图像和文本生成方面的优越性能。 Ara-2采用了Kinara公司的第二代神经核心,相较于前代Ara-1,每个核心的ALU数量增加了一倍。这个设计使Ara-2在边缘生成AI方面的性能提高了5-8倍。

 title=.png")

从Ara-1到Ara-2,大大提高了核心的利用率,效率显著提高,增加了内核中ALU的数量,效率比Ara-1更好5-8倍性能。Ara-2的内核还引入了超长指令字(VLIW)功能,为AI工作负载提供理想的指令级并行性。矩阵乘法支持得到增强,以适应变压器网络,包括LLM和ViT。

Ara-2还引入了对大型网络有用的INT4支持以及Microsoft的特殊FP16格式MSFP16,芯片的内存结构得到了加强,提高了内部和外部带宽,以满足生成式AI的需求,Ara-2可寻址高达16GB LPDDR4x的内存容量。 Ara-2在市场上的前景,主要围绕生成式人工智能家庭助理、商业助理、笔记本电脑、台式电脑和游戏机将是其新的市场。Ara-2芯片将加速小型LLM,每秒为更真实、交互式的非可玩角色(NPC)生成10个代币。相较于GPU加速,Ara-2在游戏机上的性能将更具吸引力。

 title=.png")

Ara-2的软件堆栈支持从TensorFlow、Pytorch或ONNX到Kinara内部表示的转换,编译器使用该转换将工作负载映射到Ara-2。对于Ara-2,Kinara还增加了对预量化网络的支持,将以USB和M.2模块形式提供,或者以半高半长PCIe卡内存的形式提供,内含4个或8个Ara-2芯片,可满足不同场景和需求的边缘生成AI应用。

 title=.png")

Ara-2通过Kinara的负载平衡软件,当将工作负载分配到多达16个芯片时,性能呈线性扩展。 在新一代边缘AI芯片Ara-2的推出下,Kinara公司将继续在智能零售、安全摄像头等领域提供Ara-1,并进一步拓展Ara-2在边缘服务器、笔记本电脑和高端摄像机中的应用,Kinara公司对于未来生成式人工智能和传统视觉人工智能应用的前景充满期待。

推荐阅读
关注数
11896
内容数
691
专注于汽车电子工程领域,紧跟技术创新,助力行业发展
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息