Ivo Bolsens:推理的时代

未来面向边缘和云端无处不在的 AI 架构逐步走向统一与可扩展

作者:Ivo Bolsens,AMD 高级副总裁

人工智能和机器学习( AI/ML )产业被划分为各种不同领域。这些领域中具代表性的两种划分有训练与推理,以及云端和边缘。尽管存在大量其他的 AI/ML 任务差异,但这两种划分是本文的主要探讨话题。AI/ML训练开发出供推理使用的模型,用于识别任何需要辨识的对象。这些对象可以是智慧城市街道上顺畅或拥堵的交通,可以是用于实现安全访问控制的身份证件和人脸匹配的许可级别,可以是向客户服务呼叫中心拨打电话的人所说的话,抑或是邮政分拣中心信封上的手写地址。

训练通常在企业数据中心或云端进行,这些环境中有众多高性能服务器、充裕的内存、硬件加速器和高速网络可以投入工作负载。在这种环境下,大量供给计算、联网和冷却的电力被用于训练,以便其能快速完成。尽管推理工作负载也能在数据中心或云端执行,但由于多种原因,推理任务正越来越多地向边缘端迁移。

时延

首先是时延问题。将原始数据发送到云端或数据中心会耗用时间,因而需要更长的时间来运行推理,而且向边缘端发送有用答案或决策的时间也会增多。对于一些实时任务,例如工厂自动化,用时过长的决策会导致高昂代价。

算力和电力

将推理工作负载迁移到边缘端还有另外两个原因:算力和电力。随着 AI/ML 推理工作负载迁移到大量的边缘设备,这些边缘设备中的数百万个推理引擎的总算力将超越数据中心服务器的算力。另外,边缘推理引擎并不会消耗大量电力。

为解决边缘端推理的独特需求,许多值得关注的采用全新计算架构的芯片于近期问世。

制造商强调,他们的器件能以更低的功耗达到颇高的TFLOPS 和 TOPS 运算次数。尽管推理工作负载需要充裕的 TFLOPS 和 TOPS 是不争的事实,但这些专用边缘推理芯片代表着一种单向架构理念,一旦考虑将训练与推理工作负载相结合,这种架构可能会被证明不堪使用。

当前,AI/ML 模型训练工作负载主要在数据中心内的高功耗 CPU 和 GPU 上运行,它们在此消耗大量电力,同时利用先进的冷却技术来执行训练 AI/ML 模型所需的数万亿次计算。这种训练几乎普遍采用具备高动态范围的浮点数据格式,通过允许对模型权重进行微小的增量调节来实现最高模型精度。浮点运算耗电更多,因而需要额外的冷却。此外,CPU 和 GPU在存储器和其内部计算单元之间迁移大型训练数据集时也会消耗大量电力。

如果要使用全精度浮点数据格式完成全部计算,大多数边缘推理芯片难以负担如此的硅片或功耗。很多公司为了获得高峰值 TFLOPS 和 TOPS 指标而做出妥协,通常的做法是以精度略低的数据类型来表达 AI/ML 权重、激活和数据。边缘 AI/ML 芯片的厂商会提供相关软件工具,以降低受训模型权重的精度,从而将模型转换为较小数值格式,如 FP8、缩放整数或者甚至是二进制数据格式。对于推理工作负载而言,这些较小的数据格式中的每种各有其优势,但所有这些格式都会损失一定程度的模型精度。用降低的精度重新训练 AI/ML 模型通常可以恢复些许精度。

现在试想一下,您有一种可扩展的设备架构,它既可以部署在小型嵌入式边缘设备中,也可以部署在能够汇集数据中心内运行的工作负载的大型设备中。那些助力在边缘端改善功耗和成本效率的优化措施,同样也能令数据中心的计算更密集、更具成本效益,如此一来便能降低设备用于推理和训练的资本支出与运营开支。

同时支持全精度浮点格式和降精度浮点格式的 AI/ML 加速器可扩展架构,打破了训练与推理之间的人为边界,支持为统一架构部署相同标准和熟悉的软件工具。这类高效的边缘 AI 加速器采用数据流和片上广播网络等架构创新,允许从外部存储器获取的数据在传输到片上后进行多次复用。

在一些真实的应用示例中,面向机器学习的统一可扩展数据流架构的存在,打破了训练与推理不同阶段之间的壁垒。

联邦学习( Federated Learning )就是这样一个示例,它解锁了全新类型的 AI/ML 工作负载。对于众多互联应用而言,联邦学习可以取代通过一次性离线训练推导出的降精度 AI/ML 推理模型的单向方法,并获得由于缺乏有代表意义的集中式离线训练集而难以实现的性能。

联邦学习利用了边缘推理的一个重要特征,即设备暴露于许多范围远超原始模型训练集的不同输入下。如果设计得当,边缘设备能从这些额外输入中学习,并在设备部署过程中进一步提升其模型精度。可能会有数百、数千乃至数百万个边缘设备共同改善相同的 AI/ML 模型,以提供更优质的本地回复或决策。

以同一家厂商制造、遍布在世界各地医院中的 CT 或 MRI 扫描仪为例。这些成像设备的任务通常是发现癌症肿瘤或其他疾病,并且能越来越多地采用 AI/ML 模型帮助放射科医生识别可疑组织。随着每台现场设备不断改进其模型,如果利用联邦学习更新和改进原始模型,那么,用于打造新成像设备的原始训练模型也能从相同的改进中受益。

进行如此更新时,应确保只共享来自新增边缘训练的洞悉,而不共享个人隐私数据。这样一来,所有现场设备都能在不侵犯隐私的情况下从这种额外训练中获益。联邦学习在隐私保护设备个性化方面具有广泛适用性,因其可以针对特定用户定制视觉算法和语音算法性能。它还在网络安全方面有所应用,通过网络摄取节点的集体学习即可发现主动安全规则,而无需共享敏感的专有网络流量。

结语

统一的云端和边缘计算架构的优势在于,利用相同的软件编码,就能将模型在逻辑上划分为在云端运行和在边缘运行。统一架构可确保使用兼容的数据格式,以及确保对数据格式(如稀疏表示)的优化不会在云端和边缘端之间中断。可扩展的统一架构与贯穿于所部署应用生命周期的持续学习不同于今天的常规训练与推理做法,因为后者依赖于数据中心内的 CPU 和GPU和边缘端专用设备。然而,随着 AI/ML 逐步走向普及化,如果业界希望在性能、精度和能效方面取得大幅提升,这种统一方法似乎是最合乎逻辑的途径。

最新文章

最新文章