FPGA 在 AI 上的最新成果

下午有个朋友问我，现在 AI 发展这么快，怎么没听过 FPGA 有什么动静，难道 FPGA 就真的搭不上 AI 这趟列车了吗？

从目前工业界的情况来看，确实 FPGA 在 AI 方向的应用并不是很理想，目前业界主流的两个 AI 框架 PyTorch 和 TensorFlow 都是基于 GPU 的，FPGA 相对来说，就没有那么灵活，没法快速适配新的算法。

当然学术界也一直为此做努力，这篇文章我们就来看下，最新的 2025 FPGA 学术会议上，跟 AI 相关的 4 篇论文，了解一下 FPGA 在 AI 上的最新成果。

看到这 4 篇论文，首先的感受就是中国在 AI 或者科技上的人才真的是多，2025 FPGA 会议上的 4 篇 AI 论文，有一篇是上海交大和清华大学共同发表的一篇论文，还有一篇的作者列表中，也有两个中国人的名字。所以大家都调侃，AI 的竞争，其实就是中国人和在美国的中国人的竞争。

这四篇论文都讲了什么内容？

1. FlightVGM: 基于 FPGA 的高效视频生成模型推理加速

论文的核心内容：视频生成模型（VGM）采用扩散变换器（DiT）结构，计算密集且 GPU 难以高效处理稀疏计算。
时空在线稀疏化：利用视频帧间（时间）和帧内（空间）相似性动态剪枝激活，减少 3.17 倍计算量。
混合精度 DSP 扩展架构：在 AMD V80 FPGA 上结合 FP16 和 INT8 精度，提升 3.26 倍峰值计算性能。
动态-静态调度：通过权重预加载和优先级调度优化稀疏计算利用率，提升 2.75 倍。
成果：相比 NVIDIA 3090 GPU，性能提升 1.30 倍，能效提升 4.49 倍，适用于 Latte-1、Open-Sora 等模型。

2. AmigoLUT: 基于集成学习的 LUT 神经网络扩展

论文的核心内容：传统 LUT 神经网络（如 LogicNets）随输入维度指数级消耗 FPGA 资源，难以扩展。
集成学习框架：通过平均集成多个小规模 LUT 模型（如 PolyLUT、NeuraLUT），线性扩展性能。
多样性优化：提出多样性可视化分析工具，平衡模型间差异与误差，提升集成效果。
成果：在 MNIST、高能物理数据集（HGCal/JSC）上，资源消耗降低一个量级，吞吐量显著提升。

3. ReducedLUT: 利用无关项优化的 LUT 压缩方法

论文的核心内容：LUT 压缩中未充分利用训练数据未覆盖的输入组合（“无关项”）。
无关项识别与替换：将未观测输入的输出值替换为可优化值，增强子表间相似性。
动态回溯搜索：通过调整无关项值，最大化子表依赖关系，减少唯一子表数量。
成果：在 MNIST、JSC 等数据集上，LUT 资源减少 8.7%（几何均值），保持模型准确率不变。

4. TreeLUT: 基于梯度提升决策树（GBDT）的高效推理加速

论文的核心内容：DNN 计算密集且硬件成本高，而 GBDT 结构天然适合 FPGA 实现。
量化方案：结合预训练和训练后量化，将决策树阈值和叶值映射到低比特整数。
全展开流水线架构：将 GBDT 分解为三层组合逻辑（特征生成、决策树、加法树），避免 BRAM/DSP。
成果：在 MNIST、JSC 等数据集上，硬件成本（面积-延迟积）比 LUT 神经网络低 4-101 倍，准确率 97%。

这四篇论文有什么共同点

他们都是在提升计算效率（如 TOPS、延迟）和能效比（性能/功耗），对比对象包括 GPU（如 NVIDIA 3090）或其他 FPGA 方案。

FPGA 本质上还是一个工程性的平台，在 AI 方向最适合 FPGA 肯定还是优化，通过各种更高效的算法和架构，将 AI 任务解构为 FPGA 资源的最优配置问题，最终在特定场景（如视频生成、高能物理实时处理）中实现超 GPU 的能效和超通用处理器的灵活性，从而在 AI 计算生态中占据“高能效专用求解器”的差异化地位。

FPGA 在 AI 领域的最新发展方向和成果总结

通过这 4 篇论文，我们可以看到 FPGA 在 AI 领域发展的核心脉络——通过硬件与算法的深度耦合，在特定场景中挖掘效率极限。

针对视频生成模型的时空冗余特性，设计动态稀疏化架构，将计算负载削减 3 倍以上，同时利用 FPGA 混合精度单元实现性能与能效的双重突破；面对神经网络因输入维度扩展导致的资源爆炸问题，通过集成学习将多个小型 LUT 模型组合成强分类器，既绕开单模型硬件限制，又保留 FPGA 的并行优势；甚至跳出神经网络框架，直接将决策树的逻辑判断固化为硬件电路，通过量化与流水线设计，在分类任务中以百倍级硬件成本优势碾压传统方案。

这些工作本质上都在探索同一条路径——让算法结构“生长”在 FPGA 的硬件土壤中，通过剪枝冗余计算（如激活稀疏化）、重构数据表达（如低比特量化）、硬件化模型逻辑（如决策树电路映射）等手段，将 AI 任务解构为 FPGA 资源的最优配置问题。

这种“硬件原生 AI”的思路，不仅让 FPGA 在视频生成、高能物理等实时性要求严苛的场景中展现出超 GPU 的能效优势，更揭示了未来 AI 计算的一种可能性：当算法不再被通用硬件束缚，FPGA 这类可编程平台或许会成为探索 AI 计算本质的新载体，特别是在边缘计算、生成式模型等前沿领域，为高能效、低延迟、强定制化的需求提供独特解法。

推荐两款 FPGA 加速卡

AMD Alveo V80 加速卡和 AMD Alveo U55C 加速卡。

他们都是专门为高性能计算而专门设计的加速卡，最近来找我们咨询这两块板卡的人也非常多。

AMD Alveo V80 加速器支持自定义数据类型，支持 100 多个节点，适用于基因组测序、分子动力学和传感器处理等一系列高性能计算应用。