下午有个朋友问我,现在 AI 发展这么快,怎么没听过 FPGA 有什么动静,难道 FPGA 就真的搭不上 AI 这趟列车了吗?
从目前工业界的情况来看,确实 FPGA 在 AI 方向的应用并不是很理想,目前业界主流的两个 AI 框架 PyTorch 和 TensorFlow 都是基于 GPU 的,FPGA 相对来说,就没有那么灵活,没法快速适配新的算法。
当然学术界也一直为此做努力,这篇文章我们就来看下,最新的 2025 FPGA 学术会议上,跟 AI 相关的 4 篇论文,了解一下 FPGA 在 AI 上的最新成果。
看到这 4 篇论文,首先的感受就是中国在 AI 或者科技上的人才真的是多,2025 FPGA 会议上的 4 篇 AI 论文,有一篇是上海交大和清华大学共同发表的一篇论文,还有一篇的作者列表中,也有两个中国人的名字。所以大家都调侃,AI 的竞争,其实就是中国人和在美国的中国人的竞争。
这四篇论文都讲了什么内容?
1. FlightVGM: 基于 FPGA 的高效视频生成模型推理加速
- 论文的核心内容:视频生成模型(VGM)采用扩散变换器(DiT)结构,计算密集且 GPU 难以高效处理稀疏计算。
- 时空在线稀疏化:利用视频帧间(时间)和帧内(空间)相似性动态剪枝激活,减少 3.17 倍计算量。
- 混合精度 DSP 扩展架构:在 AMD V80 FPGA 上结合 FP16 和 INT8 精度,提升 3.26 倍峰值计算性能。
- 动态-静态调度:通过权重预加载和优先级调度优化稀疏计算利用率,提升 2.75 倍。
- 成果:相比 NVIDIA 3090 GPU,性能提升 1.30 倍,能效提升 4.49 倍,适用于 Latte-1、Open-Sora 等模型。
2. AmigoLUT: 基于集成学习的 LUT 神经网络扩展
- 论文的核心内容:传统 LUT 神经网络(如 LogicNets)随输入维度指数级消耗 FPGA 资源,难以扩展。
- 集成学习框架:通过平均集成多个小规模 LUT 模型(如 PolyLUT、NeuraLUT),线性扩展性能。
- 多样性优化:提出多样性可视化分析工具,平衡模型间差异与误差,提升集成效果。
- 成果:在 MNIST、高能物理数据集(HGCal/JSC)上,资源消耗降低一个量级,吞吐量显著提升。
3. ReducedLUT: 利用无关项优化的 LUT 压缩方法
- 论文的核心内容:LUT 压缩中未充分利用训练数据未覆盖的输入组合(“无关项”)。
- 无关项识别与替换:将未观测输入的输出值替换为可优化值,增强子表间相似性。
- 动态回溯搜索:通过调整无关项值,最大化子表依赖关系,减少唯一子表数量。
- 成果:在 MNIST、JSC 等数据集上,LUT 资源减少 8.7%(几何均值),保持模型准确率不变。
4. TreeLUT: 基于梯度提升决策树(GBDT)的高效推理加速
- 论文的核心内容:DNN 计算密集且硬件成本高,而 GBDT 结构天然适合 FPGA 实现。
- 量化方案:结合预训练和训练后量化,将决策树阈值和叶值映射到低比特整数。
- 全展开流水线架构:将 GBDT 分解为三层组合逻辑(特征生成、决策树、加法树),避免 BRAM/DSP。
- 成果:在 MNIST、JSC 等数据集上,硬件成本(面积-延迟积)比 LUT 神经网络低 4-101 倍,准确率 97%。
这四篇论文有什么共同点
他们都是在提升计算效率(如 TOPS、延迟)和能效比(性能/功耗),对比对象包括 GPU(如 NVIDIA 3090)或其他 FPGA 方案。
FPGA 本质上还是一个工程性的平台,在 AI 方向最适合 FPGA 肯定还是优化,通过各种更高效的算法和架构,将 AI 任务解构为 FPGA 资源的最优配置问题,最终在特定场景(如视频生成、高能物理实时处理)中实现超 GPU 的能效和超通用处理器的灵活性,从而在 AI 计算生态中占据“高能效专用求解器”的差异化地位。
FPGA 在 AI 领域的最新发展方向和成果总结
通过这 4 篇论文,我们可以看到 FPGA 在 AI 领域发展的核心脉络——通过硬件与算法的深度耦合,在特定场景中挖掘效率极限。
针对视频生成模型的时空冗余特性,设计动态稀疏化架构,将计算负载削减 3 倍以上,同时利用 FPGA 混合精度单元实现性能与能效的双重突破;面对神经网络因输入维度扩展导致的资源爆炸问题,通过集成学习将多个小型 LUT 模型组合成强分类器,既绕开单模型硬件限制,又保留 FPGA 的并行优势;甚至跳出神经网络框架,直接将决策树的逻辑判断固化为硬件电路,通过量化与流水线设计,在分类任务中以百倍级硬件成本优势碾压传统方案。
这些工作本质上都在探索同一条路径——让算法结构“生长”在 FPGA 的硬件土壤中,通过剪枝冗余计算(如激活稀疏化)、重构数据表达(如低比特量化)、硬件化模型逻辑(如决策树电路映射)等手段,将 AI 任务解构为 FPGA 资源的最优配置问题。
这种“硬件原生 AI”的思路,不仅让 FPGA 在视频生成、高能物理等实时性要求严苛的场景中展现出超 GPU 的能效优势,更揭示了未来 AI 计算的一种可能性:当算法不再被通用硬件束缚,FPGA 这类可编程平台或许会成为探索 AI 计算本质的新载体,特别是在边缘计算、生成式模型等前沿领域,为高能效、低延迟、强定制化的需求提供独特解法。
推荐两款 FPGA 加速卡
AMD Alveo V80 加速卡和 AMD Alveo U55C 加速卡。
他们都是专门为高性能计算而专门设计的加速卡,最近来找我们咨询这两块板卡的人也非常多。
AMD Alveo V80 加速器支持自定义数据类型,支持 100 多个节点,适用于基因组测序、分子动力学和传感器处理等一系列高性能计算应用。
两款加速卡都内置加密引擎和灵活硬件助力定制包处理,非常适合防火墙和数据包监控等应用。该加速器卡的自定义数据移动功能也使其非常适合数据中心网络的 GPU 集群配置。
两款加速卡都具有低延迟处理能力和 HBM,可轻松应对大型数据集,实现出色能效、可扩展性并助力用户更快获得见解。
END
原文:FPGA技术江湖
相关文章推荐
- 一周掌握FPGA Verilog HDL语法 day 5
- Verilog 的未来在哪里?
- VHDL 语法学习笔记:一文掌握 VHDL 语法
- 使用国产 FPGA 实现开源 10Gbps NIC Corundum
- 一周掌握 FPGA Verilog HDL 语法 day 4
更多 FPGA 干货请关注FPGA 的逻辑技术专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。