FPGA在AI上的最新成果

judy 在周三, 03/12/2025 - 15:11 提交

作者：张海军，来源：傅里叶的猫

下午有个朋友问我，现在AI发展这么快，怎么没听过FPGA有什么动静，难道FPGA就真的搭不上AI这趟列车了吗？

从目前工业界的情况来看，确实FPGA在AI方向的应用并不是很理想，目前业界主流的两个AI框架PyTorch和TensorFlow都是基于GPU的，FPGA相对来说，就没有那么灵活，没法快速适配新的算法。

当然学术界也一直为此做努力，这篇文章我们就来看下，最新的2025 FPGA学术会议上，跟AI相关的4篇论文，了解一下FPGA在AI上的最新成果。

看到这4篇论文，首先的感受就是中国在AI或者科技上的人才真的是多，2025 FPGA会议上的4篇AI论文，有一篇是上海交大和清华大学共同发表的一篇论文，还有一篇的作者列表中，也有两个中国人的名字。所以大家都调侃，AI的竞争，其实就是中国人和在美国的中国人的竞争。

四篇论文都讲了什么内容？

1. FlightVGM: 基于FPGA的高效视频生成模型推理加速

论文的核心内容：视频生成模型（VGM）采用扩散变换器（DiT）结构，计算密集且GPU难以高效处理稀疏计算。

时空在线稀疏化：利用视频帧间（时间）和帧内（空间）相似性动态剪枝激活，减少3.17倍计算量。
混合精度DSP扩展架构：在AMD V80 FPGA上结合FP16和INT8精度，提升3.26倍峰值计算性能。
动态-静态调度：通过权重预加载和优先级调度优化稀疏计算利用率，提升2.75倍。

成果：相比NVIDIA 3090 GPU，性能提升1.30倍，能效提升4.49倍，适用于Latte-1、Open-Sora等模型。

2. AmigoLUT: 基于集成学习的LUT神经网络扩展

论文的核心内容：传统LUT神经网络（如LogicNets）随输入维度指数级消耗FPGA资源，难以扩展。

集成学习框架：通过平均集成多个小规模LUT模型（如PolyLUT、NeuraLUT），线性扩展性能。
多样性优化：提出多样性可视化分析工具，平衡模型间差异与误差，提升集成效果。

成果：在MNIST、高能物理数据集（HGCal/JSC）上，资源消耗降低一个量级，吞吐量显著提升。

3. ReducedLUT: 利用无关项优化的LUT压缩方法

论文的核心内容：LUT压缩中未充分利用训练数据未覆盖的输入组合（“无关项”）。

无关项识别与替换：将未观测输入的输出值替换为可优化值，增强子表间相似性。
动态回溯搜索：通过调整无关项值，最大化子表依赖关系，减少唯一子表数量。

成果：在MNIST、JSC等数据集上，LUT资源减少8.7%（几何均值），保持模型准确率不变。

4. TreeLUT: 基于梯度提升决策树（GBDT）的高效推理加速

论文的核心内容：DNN计算密集且硬件成本高，而GBDT结构天然适合FPGA实现。

量化方案：结合预训练和训练后量化，将决策树阈值和叶值映射到低比特整数。
全展开流水线架构：将GBDT分解为三层组合逻辑（特征生成、决策树、加法树），避免BRAM/DSP。

成果：在MNIST、JSC等数据集上，硬件成本（面积-延迟积）比LUT神经网络低4-101倍，准确率97%。

这四篇论文有什么共同点

他们都是在提升计算效率（如TOPS、延迟）和能效比（性能/功耗），对比对象包括GPU（如NVIDIA 3090）或其他FPGA方案。

FPGA本质上还是一个工程性的平台，在AI方向最适合FPGA肯定还是优化，通过各种更高效的算法和架构，将AI任务解构为FPGA资源的最优配置问题，最终在特定场景（如视频生成、高能物理实时处理）中实现超GPU的能效和超通用处理器的灵活性，从而在AI计算生态中占据“高能效专用求解器”的差异化地位。

FPGA在AI领域的最新发展方向和成果总结

通过这4篇论文，我们可以看到FPGA在AI领域发展的核心脉络——通过硬件与算法的深度耦合，在特定场景中挖掘效率极限。

针对视频生成模型的时空冗余特性，设计动态稀疏化架构，将计算负载削减3倍以上，同时利用FPGA混合精度单元实现性能与能效的双重突破；面对神经网络因输入维度扩展导致的资源爆炸问题，通过集成学习将多个小型LUT模型组合成强分类器，既绕开单模型硬件限制，又保留FPGA的并行优势；甚至跳出神经网络框架，直接将决策树的逻辑判断固化为硬件电路，通过量化与流水线设计，在分类任务中以百倍级硬件成本优势碾压传统方案。

这些工作本质上都在探索同一条路径——让算法结构“生长”在FPGA的硬件土壤中，通过剪枝冗余计算（如激活稀疏化）、重构数据表达（如低比特量化）、硬件化模型逻辑（如决策树电路映射）等手段，将AI任务解构为FPGA资源的最优配置问题。

这种“硬件原生AI”的思路，不仅让FPGA在视频生成、高能物理等实时性要求严苛的场景中展现出超GPU的能效优势，更揭示了未来AI计算的一种可能性：当算法不再被通用硬件束缚，FPGA这类可编程平台或许会成为探索AI计算本质的新载体，特别是在边缘计算、生成式模型等前沿领域，为高能效、低延迟、强定制化的需求提供独特解法。

推荐两款FPGA加速卡

AMD Alveo V80加速卡和AMD Alveo U55C加速卡。

他们都是专门为高性能计算而专门设计的加速卡，最近来找我们咨询这两块板卡的人也非常多。

AMD Alveo V80 加速器支持自定义数据类型，支持 100 多个节点，适用于基因组测序、分子动力学和传感器处理等一系列高性能计算应用。

两款加速卡都内置加密引擎和灵活硬件助力定制包处理，非常适合防火墙和数据包监控等应用。该加速器卡的自定义数据移动功能也使其非常适合数据中心网络的 GPU 集群配置。

两款加速卡都具有低延迟处理能力和 HBM，可轻松应对大型数据集，实现出色能效、可扩展性并助力用户更快获得见解。

FPGA
AI