AMD芯片在3D重建中的应用分析

作者:Hairi Ni,文章来源:FPGA FAE技术分享选集

3D重建通过精确捕捉物体表面几何信息,构建出高精度数字模型,在多个行业中获得了广泛应用。从工业制造、航空航天,到文物保护、建筑工程等领域,3D扫描重建技术均展现出关键作用,驱动各行业加速向数字化、智能化迈进。

一、3D扫描技术实现方案简介

(一)主流技术方案

结构光技术:光源向物体表面投射特定编码光栅,利用摄像头捕捉光栅在物体表面产生的形变。通过相位解包裹算法计算光栅形变对应的相位信息,利用三角测量原理计算物体表面点的空间位置。同时通过多频外差法发射不同频率光栅,解决单一频率下可能出现的相位模糊,精准计算物体表面各点的深度信息,最终构建三维模型。在工业零部件检测中,结构光技术主要用于高精度尺寸测量与表面缺陷检测,确保产品符合制造标准;在文物数字化保护方面,它能精准还原文物细节,为文物研究与修复提供关键数据支持,因其出色的细节还原能力,在这些对精度要求极高的领域得到广泛应用。

激光三角测量技术:通过发射激光线照射物体表面,传感器捕捉反射光点的位移变化。基于三角测量原理,计算物体表面各点与扫描仪的距离,生成点云数据。借助点云配准算法(ICP算法),拼接整合不同视角下的点云数据,同时利用噪声滤波(RANSAC算法)去除数据中的噪声点,最终构建出三维模型。在大型机械制造中,激光三角测量技术对关键零部件尺寸测量精度可达±0.01mm,且在长时间连续测量中,稳定性偏差控制在极小范围内,有力保障了产品质量;在建筑结构测量领域,能精确获取建筑构件的空间位置与尺寸,为建筑施工与安全评估提供可靠依据,凭借高精度和稳定性,在这些领域发挥着不可替代的作用。

飞行时间(ToF)技术:ToF技术发射红外光脉冲,并测量其从发射到反射回来的时间差。通过时间数字转换器将时间间隔转换为数字信号,运用多路径干扰补偿和深度图优化算法,将测量的时间差准确转化为物体表面各点到扫描仪的距离信息,获取物体的三维结构。ToF技术扫描速度快,对环境光照条件适应性强,在智能安防监控场景建模中,可快速构建场景三维模型,用于入侵检测与行为分析;在大型场地测绘等需要快速获取大面积场景三维信息的应用中,能高效完成测绘任务,广泛应用于此类场景。

立体视觉技术:立体视觉技术模拟人类双眼感知物体深度的原理,采用双目或多目摄像头同时拍摄物体。通过极线校正算法简化后续匹配流程,缩小匹配搜索范围。运用立体匹配算法(SGBM算法)对不同摄像头拍摄的图像进行比对分析,依据视差信息计算物体深度,并通过深度图后处理优化数据,实现三维信息的重建。

(二)方案共性

运算量巨大:3D扫描过程产生的数据量极为庞大,单帧数据处理常常需要数亿次浮点运算。以1080P图像的立体匹配为例,需要TOPS级别的算力,需强大的计算芯片与高效的计算架构支撑运算。

实时性要求高:在众多应用场景中,都需要实时的3D重建技术。在工业检测场景,为满足生产线高速运转的检测需求,3D扫描仪需达到30fps以上的实时输出速度。在机器人导航领域,在保证重建精度的同时延迟需小于50ms才能保证机器人执行动作的流畅和准确。

多任务并行:3D扫描技术的实现涉及多个复杂任务,一般都需要并行多路同时运行图像采集、噪声滤波、深度计算、点云生成等任务,这些任务相互关联,形成高效的流水线作业。任何一个环节出现差错,都可能影响3D扫描的质量与速度。

二、行业方案演进:从 “前后端分离” 到 “前端全集成”

传统方案:前端采集 + 后端计算

传统3D扫描方案中,前端扫描仪负责数据采集,借助传感器获取物体表面的原始数据,如激光扫描仪采集的激光反射数据、摄像头采集的图像数据等。这些原始数据通过USB或千兆以太网传输至后端的PC或服务器,由后端设备运行算法软件进行处理,最终生成物体的三维模型。

这种前后端分离的方案存在诸多弊端。首先是传输带宽限制,随着3D扫描技术发展,对扫描分辨率和精度的要求不断提高,数据量成倍的增长。例如,单路4K分辨率的前端数据就传输需要10Gbps以上的带宽,实际应用中,受网络设备和传输介质的限制,往往难以满足高带宽需求,导致数据传输缓慢甚至卡顿。其次,端到端延迟问题严重,数据在前端和后端之间传输,加上后端复杂算法的处理时间,整个系统的端到端延迟通常在秒级水平,无法满足对实时性要求极高的应用场景。此外,后端计算设备体积庞大,需要专门的机房或空间放置,不利于设备的便携部署,限制了其在移动作业场景中的应用。

当前方案:前端预处理 + 后端计算

为克服传统方案的不足,当前方案在扫描仪内部集成FPGA或ASIC硬件模块。这些硬件模块对采集到的原始数据进行预处理,如数据降噪,降低传感器噪声和环境干扰的影响;ROI提取,根据用户需求或应用场景,提取关键区域的数据,减少后续传输和处理的数据量。前端预处理有效减轻了后端计算设备的负担,提升了数据处理的整体效率。

即便前端预处理改善了传统方案的性能,后端处理流程仍面临难以突破的瓶颈。在三维模型构建过程中,ICP和SLAM算法对算力要求极高,致使GPU等高功耗计算设备成为标配。随着物联网和边缘计算的快速发展,众多应用场景对设备的功耗和体积都有严格要求。依赖后端GPU的处理方案无法满足便携式,低功耗的需求。

最新趋势:前端全集成一体机

为了脱离后端计算设备的限制,增加便携性简化设备整体成本,行业头部企业方案开始将计算前置,在手持的扫描设备中增加GPU等运算单元,在单手持设备上实现从数据采集到点云生成的全流程计算。

三、一体机方案:FPGA+GPU 方案分析

(一)FPGA与GPU 的分工

FPGA在一体机方案中实现数据采集与预处理等高并行性任务。常见的通过MIPI接口接收前端多路模组的数据,实现ISP算法,对数据进行滤波去噪等;进行数据校正,纠正多路模组本身或外界因素导致的数据偏差。进一步进行深度计算,对于结构光3D扫描,在FPGA上完成结构光解码计算物体的深度信息;对于ToF技术,进行精确的时间延迟解析,计算光脉冲的飞行时间,得到物体表面各点的距离信息。FPGA凭借低延迟(纳秒级响应)和高能效比的优势,为后续的计算任务提供高质量、低延迟的预处理数据。

GPU专注于运行复杂的算法任务。在点云配准(ICP)算法中,面对大量点云数据,GPU利用高并行计算加速能力(CUDA核心),计算点云之间的匹配关系,构建完整的三维模型。在表面重建(Marching Cubes)算法中,GPU将点云数据转化为物体的表面模型,生成高精度的三维模型。

(二)方案的不足

FPGA与GPU协同工作时一般通过PCIe接口实现FPGA和GPU的数据传输,数据传输过程中需要进行格式转换和缓存等操作,不可避免地产生额外延迟。这种延迟会影响系统的实时性能,在对实时性要求极高的应用场景中,可能导致3D扫描数据的处理速度跟不上实际需求,影响整个系统的运行效果。

采用FPGA+GPU的多芯片方案,虽同样能实现强大的计算功能,但硬件方案也相对复杂,同时功耗和体积方面也不能进一步优化。GPU作为典型的高耗能平台,两个芯片同时工作使设备功耗大幅增加。高功耗不仅需要更复杂的电源供应系统,增加设备成本和复杂性,还会导致设备发热严重,影响设备的稳定性和使用寿命。同时,两个芯片及其周边配套电路占据较大空间,使得设备体积难以进一步缩小,不利于满足小型化、便携化的应用需求。

在FPGA+GPU的方案中,整机的功能和算法迭代同样面临挑战。由于FPGA的硬件逻辑和GPU的软件代码相互独立,对算法进行修改和优化时,必须同时调整FPGA的硬件逻辑和GPU的软件。这不仅要求开发人员具备硬件和软件两方面的专业知识,增加开发难度,而且整个开发过程涉及硬件设计、软件编程、硬件软件协同调试等多个环节,导致开发周期较长,难以快速响应市场需求和技术发展的变化。

四、Versal:全流程集成的自适应计算平台

AMD推出的Versal自适应计算加速平台(ACAP),凭借其独特架构与卓越性能,为3D扫描技术带来了革命性变革,重塑了行业格局。

Versal平台构建了高度集成且协同运作的异构计算体系,主要由Arm处理器系统(PS)、可编程逻辑(PL)、人工智能引擎(AIE)等部分组成,各部分通过片上网络(NoC)紧密相连,实现了强大计算能力与高度灵活性。

人工智能引擎(AIE)专为矩阵运算和复杂算法优化。与GPU相比,它不仅软件可编程,还具有硬件可适配性,能够灵活处理各种计算密集型应用的需求,通过C和C++高级语言,开发者能够在AIE阵列中创建定制的加速和计算引擎。如数字信号处理、人工智能 、 机器学习领域等,相比GPU能提供更高的能效比。

在实际应用中,AIE引擎与PL逻辑相互配合。PL逻辑通过MIPI接口接收前端多路模组的数据,同步并行计算多路的ISP算法,对数据进行滤波去噪等;进行数据校正,纠正多路模组本身或外界因素导致的数据偏差,为后续的计算任务提供高质量、低延迟的预处理数据。通过片上NOC路由网络传递到AIE引擎中计算后续的点云计算和匹配算法任务。Vitis优化点云配准(ICP)算法,将PL端传递的大量预处理数据分配到AIE单元中,利用AIE并行计算加速能力,计算点云之间的匹配关系,构建完整的三维模型。

相较于FPGA+GPU方案,Versal高度集成的架构,将自适应硬件引擎(PL)、AI引擎和ARM处理单元整合在单芯片中,可在单芯片内实现了从数据采集到三维重建的全流程处理,避免了芯片间数据传输带来的延迟,极大的降低端到端延迟,提高计算效率。且相比FPGA+GPU方案,极大地降低了功耗,同时大幅减少了芯片面积和PCB板面积。这使得基于Versal的3D扫描设备更适合小型化设计,满足了便携性的需求,为3D扫描技术在移动场景中的应用提供了可能。

五、总结:Versal引领3D扫描技术新变革

传统的FPGA+GPU多芯片异构方案在实时性、功耗、设备体积和开发灵活性等方面存在诸多瓶颈,限制了3D扫描技术的进一步发展。而Versal凭借其“自适应逻辑(PL)+ AI引擎(AIE)+标量处理器(PS)”的创新架构,实现了单芯片内的全流程加速,为3D扫描技术带来了革命性的突破。

在实时性方面,Versal端到端延迟小于几十毫米级,远超FPGA+GPU方案,能够满足工业机器人实时控制、医疗手术实时导航等严苛场景对3D重建数据处理速度和精度的要求。在设备形态上,其芯片面积大幅减少,助力3D扫描设备实现小型化,更易于集成到嵌入式设备中,拓展了应用场景。此外,Versal硬件可编程的特性使算法能够快速迭代,提升了设备对不同行业3D扫描需求的适应性,无论是工业制造、文化遗产保护还是医疗领域,都能提供定制化的解决方案。

随着Versal系列的量产和广泛应用,3D扫描设备正从功能单一的传统设备向智能化、多功能的智能终端转变。这一转变将有力推动智能制造、数字孪生等领域的发展,为各行业的数字化转型注入新的活力,开启3D扫描技术应用的新篇章,引领行业迈向更高的发展阶段。

如果您了解更多关于AMD器件在3D重建方面应用,欢迎联系:

simonyang@comtech.cn

charlesxu@comtech.cn

最新文章

最新文章