FPGA加速器

论文综述：数据中心中的FPGA硬件加速器

由 judy 提交于周四, 26 十二月 2024 - 14:51

本文旨在回顾通过部署现场可编程门阵列（FPGA 设备）来提高数据中心 operational 效率的方法

加州大学颠覆性大模型架构，FPGA重回AI舞台？

由 judy 提交于周四, 27 六月 2024 - 10:38

最近加州大学发布了一篇文章，文章介绍了一种名为MatMul-free语言模型的新技术。

本文提出一种细粒度流水线结构以实现较高的DSP效率。

过去三十年间，基于服务器的计算历经多次飞跃式发展。上世纪 90 年代，业界从单插槽独立服务器发展到服务器集群。紧接着在千禧年，产业首次看到双插槽服务器，再后来，多核处理器也问世了。进入下一个十年，GPU 的用途远远超出了处理图形的范畴，我们见证了基于 FPGA 的加速器卡的兴起。

赛灵思公司与三星电子有限公司今日宣布推出三星 SmartSSD® 计算存储驱动器（CSD）。基于赛灵思 FPGA 的 SmartSSD CSD 是业界首款灵活应变的计算存储平台，能够提供数据密集型应用所需的性能、定制能力和可扩展能力。

结合机器学习和深度学习实现的 CTR 预估模型，相较于传统机器学习，模型评估指标大幅度提升。通过 FPGA 实现模型的推断过程，大幅度提高吞吐量，降低时延，对互联网公司大规模部署推荐系统节省更多成本。适用于广告 CTR 预估、推荐系统、新零售等场景。相较于 96vCPU 服务器，雪湖的 FPGA 加速器把吞吐量提高了 2.4 倍，时延降低了 5.7 倍

Rapanda 提供了在 FPGA 上运行的内联端到端流管道。Rapanda 为即将到来的 Event Tsunami 提供大数据流处理和机器学习的加速。

250-M2D 采用了完全可编程的赛灵思® Kintex® UltraScale+™ FPGA，直接耦合到本地 DDR4 内存的两个存储器组上。可以完全由客户进行完全自主编程，或者采用Eideticom 的应用 IP，作为可立即运行的预编程解决方案来交付，后者是快速发展的计算存储市场上广受认可的领导者

我们不妨将并行计算单元想象成一个塞满小黄人的小型棒球场，每个小黄人代表 100 万个逻辑门。一旦某个任务不支持所有小黄人同时并行工作，GPU 这样的并行计算加速器就会面临严重的性能瓶颈。

全国高校自动化类专业教学论坛将于2019年8月6-8日在沈阳举行（详情链接 http://www.edu-forum.cn/zdhyxb/ ），此次活动主要围绕自动化，机器人，人工智能这几大方向举行。Xilinx受邀在此次活动中就Xilinx相关技术进行分享。为了能让与会嘉宾以及其他相关科研人员能更深入的了解和掌握相关技术。Xilinx特于2019年8月8日举办此次“人工智能与机器人加速器工作坊”，通过动手实验和实际开源案例结合快速掌握基于Xilinx FPGA/Zynq平台的人工智能与机器人开发方法，为相关专业建设、教学实施以及工程实践提供案例和资源体系。此次活动不局限于高校相关人员，同时也对在此方向有兴趣的企业工程师开放，科教融合，产教融合共同探讨和学习人才培养。

清华大学出版社
Xilinx