菲数科技使用FA728Q加速卡加速低时延交易(LLT)应用

菲数科技使用Stratix® 10 FPGA和开源的开放式FPGA堆栈(OFS)基础设施开发高性能FPGA加速卡。

概述

  • 基于FA728Q FPGA的加速卡现已出货,它是一种基于PCIe*、搭载Stratix® 10 FPGA的高性能加速卡

  • 菲数科技使用OFS基础设施加速其自定义FPGA接口管理器 (FIM) 的开发,该管理器包括一个集成的TCP/IP卸载引擎 

  • 在运行LLT等时间关键型应用时,FA728Q加速卡的TCP传输时延不到100纳秒

要点综述

LLT和其他时间敏感型应用是FPGA加速的理想使用场景。为了满足这一市场需求,菲数科技开发了基于FA728Q FPGA的加速卡。FA728Q加速平台为最终用户提供了强大的FPGA资源、充足的存储容量和易于使用的界面。菲数科技使用OFS基础设施来加速、简化、标准化其加速主板的开发。OFS基础设施提供了一种强大的方法,支持以“量身定制”的方式加速FPGA解决方案的开发。借助OFS基础设施,菲数科技将其TCP/IP卸载引擎集成至开源的基础FIM中,它通常被称作FPGA“shell”。

背景信息和挑战

LLT以电子方式执行金融证券交易,尽可能地减少订单输入与订单之间的时延。如今,大型投资银行、对冲基金和其他金融机构普遍使用该方法。过去,交易是手动执行的,而不是以电子方式执行,交易的时间长则数分钟,短则数秒。然而,随着硬件和相应软件技术的进步,人们可以对系统进行编程,根据特定的市场信号和动态自动做出买入或卖出决策,从而将交易执行时间缩短到毫秒级。近年来,随着基于FPGA的加速产品的大规模出货,交易时间进一步缩短至数微秒,甚至不到1微秒。

同时,LLT系统越来越多地使用复杂的交易算法模型来进行订单薄交互。这些算法模型是根据每家交易公司的特定交易策略而专门定制的。解决方案需要借助通用处理器和专用协处理器的算力,以满足交易公司在异构计算等方面的功率和性能要求。FPGA非常适合实施定制的交易算法,但是这款硬件加速设备的编程非常耗时,并且随着FPGA家族的优化升级,也很难迁移。

菲数科技是一家总部位于中国的公司,致力于满足数据中心异构计算和高性能计算(包括LLT细分领域)领域的需求。他们向市场交付了基于FPGA的硬件加速器平台、FPGA加速知识产权(IP)功能和基于FPGA的平台设计服务。

解决方案

为满足LLT应用的低时延、标准化和可移植性要求,菲数科技开发了FA728Q加速卡,用于对集成式TCP/IP卸载引擎进行实例化。为此,菲数科技修改了开源版OFS中提供的基础FIM。得益于可组合的架构和“量身定制”的方法,该公司使用OFS,将其算法轻松地移植到FA728Q加速卡,同时,该公司利用OFS提供的其它基础设施,包括OFS软件驱动程序和库,从而尽可能地减少应用的修改。

运行在主机上的软件.png

运行在主机上的软件

PCIe* 加速卡

图 1. FA728Q上实施的采用TCP/IP卸载引擎 (TOE) 解决方案的OFS

OFS是一种开源硬件和软件基础设施,提供了所有必要的关键设计、软件和基础设施组件,支持快速开发基于FPGA的自定义主板或工作负载。OFS基础设施由 FIM(通常被称作“shell”)和加速器功能单元 (AFU) 区域(一种用于工作负载开发的指定区域)组成。借助OFS、FPGA主板或FIM,开发者可以利用开源基础设施或基础FIM,根据目标应用或行业,快速开发量身定制的主板FIM。OFS还附带了oneAPI加速器支持包 (ASP),开发者可以利用它对FPGA硬件和设计流程进行抽象化。OFS节省了开发者的时间,提高了不同FPGA代际间的可移植性,其采用行业标准接口,并且使用oneAPI提供可选的高层次设计流程。 

FA728Q加速卡现已出货,它是一款基于PCIe的高端FPGA加速主板,可提供 32GB板载DDR4内存和3个QSFP28插槽,每个接口支持高达100GbE。FA728Q加速卡还可以通过OFS基础设施启用oneAPI,以支持客户在RTL中实施内核,或者将算法从CPU/GPU迁移到C/C++等高级设计语言。oneAPI基础工具套件也可以助力客户在内核中采用FPGA资源,从而进一步缩短上市时间。

表 1. FA728Q规格.png

表 1. FA728Q规格

菲数科技还开始开发基于Agilex™ FPGA的主板,包括使用Agilex™ 7 FPGA I系列的FA927S卡和使用Agilex™ 7 FPGA F系列的FA925E卡。

FA927S卡可提供高达116Gbps的收发器速率,并且支持PCIe 5.0 x16和 Compute Express Link (CXL)。它面向带宽密集型应用,现在已用于基于RTL 的开发中。FA927S卡已于2024年第一季度支持OFS。

另一方面,FA925E卡提供了4个8GB内存条和4个4GB DDR4内存条,板载内存总计高达48GB。FA925E卡专为对外部内存容量和带宽要求较高的应用而设计。它全面支持OFS。2023年底已量产。

这两款加速卡的规格如下表所示。

表 2. FA927S规格.png

表 2. FA927S规格

表 3. FA925E规格.png

表 3. FA925E规格

成效

菲数科技在FA728Q卡上实施的卸载引擎IP功能针对时延和性能进行了优化,以满足LLT要求。在加速模式下,TCP的传输时延低于100纳秒,可为时间关键型网络应用建立稳定的低时延连接。下表显示了各种连接所测量的时延。

表 4. TOE的规格.png

表 4. TOE的规格

注:

1) 一个时钟周期为6.4纳秒; 

2) TX时延计算的是从数据包EOP的下降边缘到XGMII TXC中的有效数据的时间; 

3) RX时延计算的是从数据包SOP到XGMII RXC中的有效数据的时间

FA728Q卡还提供了高带宽PCIe 3.0 x16和DDR4接口。

表 5. 每个接口提供的带宽.png

表 5. 每个接口提供的带宽


板级支持包

图 2. OFS平台中的高带宽数据路径.png

图 2. OFS平台中的高带宽数据路径


如何使用OFS和菲数科技解决方案开始进行FPGA加速

FPGA开发者可以利用FA728Q加速卡和基于OFS的主板,借助开源文档和源代码来构建自己的自定义工作负载。

下表概述了开发者应如何使用菲数科技加速主板,开始开发基于FPGA的工作负载。

公众负载.png

您可以访问https://github.com/OFS,获取开放式FPGA堆栈的基础源代码和文档。请注意,您可以在OFS主板目录中浏览所有基于OFS的第三方主板。

客户评价

“OFS帮助我们更轻松、更快速地构建客户所需的加速平台,为客户提供从软件、API、驱动程序到底层硬件的一整套方案。”

文章来源:英特尔FPGA

最新文章

最新文章