EDA行业最隐秘的分裂:三种仿真架构如何改写AI芯片未来

作者:Lauro Rizzatti

硬件仿真(Hardware Emulation)的诞生,本质上是 20 世纪 80 年代半导体产业发展压力下的必然产物。

到了 80 年代中期,芯片设计规模已经超出了门级仿真(Gate-Level Simulation)的实际能力范围。门级仿真虽然精确,却慢得惊人;而硅原型虽然能以真实速度运行,却往往在项目后期才出现,已经错过了验证黄金阶段。

行业迫切需要一种新的工具:既能以足够快的速度运行真实硬件模型,又能保留完整可观测性与调试控制能力的验证平台。硬件仿真因此诞生。

谁又能想到,当年已经足够惊人的摩尔定律复杂度增长,到了 2020 年代竟会被 AI 模型复杂度远远甩开。事后看似理所当然,但在当时没人真正预料到这一点。
下面先看看半导体需求实际发生了什么。

图 1:半导体需求加速增长(来源:Synopsys)

从 PC、互联网、移动互联网,到 IoT 与云计算,电子系统经历了四个时代。某种程度上可以说,仿真技术的演进,本质上是不同技术路线围绕市场需求展开的一场长期博弈——不同架构不断在性能、规模、调试能力与成本之间寻找平衡。

而今天,市场的核心投入已经转向 AI 芯片。AI 模型复杂度呈爆炸式增长,这意味着能够高效运行超长 AI 工作负载的仿真架构,正在成为新一代赢家。

下面我们回顾一下,硬件仿真技术究竟是如何一步步演进,并最终让商用 FPGA 架构在 AI 系统验证时代占据主导地位的。

最早一代硬件仿真器,建立在大规模商用 FPGA 阵列之上。在当时,这已经是一次革命性的跨越。

这些系统首次让复杂芯片能够在流片前完成预硅验证,而不再完全依赖耗时数年的软件仿真。

接下来近十年里,行业发展路径相当清晰:每一代 FPGA 都带来更大的容量、更高的性能,以及承载更复杂设计的能力。系统规模不断扩张,但底层理念其实并没有改变。
然而随着平台越来越庞大,其根本性问题也逐渐暴露。

单纯提升逻辑容量,并不能解决架构本身的限制。早期 FPGA 仿真平台埋下的“原罪”,最终开始反噬。

为了追上不断膨胀的设计规模,系统需要堆叠海量 FPGA,结果是部署周期从数周拉长到数月。编译流程往往持续数天,导致 DUT(被测设计)准备时间严重拖延,迭代开发极其痛苦。

设计可观测性同样受限。内部信号调试必须提前将 probe 编译进 FPGA fabric,占用宝贵资源,加剧布线拥塞,使 Debug 变成低效而繁琐的工作。

执行模型也非常僵硬,几乎完全围绕 ICE(In-Circuit Emulation,在电路仿真)展开,缺乏灵活交互式调试能力。

更现实的问题则是成本:采购、运维与维护费用高得惊人,绝大多数团队根本无力承担。

因此,硬件仿真长期只能被用于最关键的验证任务,通常出现在设计流程后期,而且只有最先进的大公司才真正用得起。

对于很多团队来说,它不是日常开发平台,而是一种稀缺的“战略资源”——强大、不可替代,但永远供不应求。

伟大分化的种子开始萌芽

到了 90 年代中期,表面上市场格局似乎已经稳定。

当时行业主要由两家公司主导:
• Quickturn Design Systems
• IKOS Systems

但平静表面下,一场深层变化已经开始。

芯片规模迅速膨胀;软件栈复杂度同步上升;验证目标也从模块级正确性,转向完整系统行为验证。

问题已经不再是“仿真能否扩展”,而是:

应该如何扩展。

行业开始重新思考:

仿真器是否应该继续只是“更大的 FPGA 阵列”?

还是应该成为专门为可观测性、可控性与系统级性能打造的验证机器?

正是在这种背景下,三种截然不同的硬件仿真架构逐渐成型:
• 基于处理器的仿真(Processor-Based Emulation)
• 基于定制 FPGA 的仿真(Custom-FPGA-Based Emulation)
• 基于商用 FPGA 的仿真(Commercial-FPGA-Based Emulation)

它们背后代表着三种完全不同的技术哲学,也分别在性能、规模与易用性之间做出了不同取舍。

而这场分化,影响了之后几十年的预硅验证发展路线。

基于处理器的仿真(Processor-Based Emulation)

IBM 与处理器式架构的诞生

80 年代初,IBM 就已经开始研究利用硬件加速提升验证效率。

其中包括:
• Yorktown Simulation Engine(YSE)
• Engineering Verification Engine(EVE)

这些系统本质上属于“仿真加速器”——一种专门执行硬件描述语言的软件计算平台。

相比传统仿真器,它们确实更快,但依然不足以运行真实世界级别的 DUT 激励。

到了 90 年代中期,IBM 开始形成新的架构方向:

使用大量简单布尔处理器(Boolean Processor)阵列,通过共享大内存和复杂调度机制执行硬件模型。

这种方案最终被证明非常适合大规模仿真。

但 IBM 自己并没有真正商业化这项技术。

Quickturn 将处理器式仿真商业化

在多年 FPGA 仿真经验之后,Quickturn 逐渐意识到:

FPGA 架构的很多问题已经不是优化能够解决的。

为了支持更大设计,系统必须跨多块板卡连接数百颗 FPGA,设计分区与布线往往需要几个月时间。

调试可观测性必须提前编译进去,与布线资源争抢空间。

随着设计复杂度增加,性能也无法线性扩展。

于是,Quickturn 开始寻找替代路线。

它一度考察过法国创业公司 Meta System 的定制 FPGA 架构。与此同时,Mentor Graphics 也在追逐同一技术方向。

双方竞争甚至升级为知识产权诉讼,最终 Mentor 收购了 Meta System。

而 Quickturn 则转向 IBM 的处理器架构,并与 IBM 达成 OEM 合作协议。

IBM 的处理器式架构成功解决了 FPGA 平台最痛苦的三大问题:
• 超长编译与部署时间
• 调试可见性不足
• 大规模下性能下降

当然,它也有缺点:功耗明显更高。

1997 年,Quickturn 收购 IBM 技术,并推出 CoBALT 仿真器。

这是第一款真正意义上的处理器式商业仿真平台,并迅速获得市场认可。

后来,Cadence Design Systems 收购 Quickturn,将其核心技术纳入自己的产品体系。

Cadence 与 Palladium 的长期演进

收购之后,Cadence 放弃了 Quickturn 原有 FPGA 产品线,全面押注处理器式架构。

这成为后续著名 Palladium 系列的起点。

在之后数代产品中,Palladium 始终保持同一核心理念:

大量简单处理器协同工作,以大规模模拟硬件行为。

随着迭代:
• 设计容量不断扩大
• 执行性能持续提升
• 调试能力越来越完整
• 编译流程越来越自动化

其最大优势主要有两点:

第一,编译时间明显短于 FPGA 路线。

第二,运行时拥有完整设计可观测性,无需额外编译 probe。

Palladium 在 ICE 场景也表现非常强大,通过大量 speed bridge 与真实硬件接口直接连接,实现软硬件协同验证。

但它也有明显代价:
• 系统体积庞大
• 功耗极高
• 用户甚至需要昂贵水冷基础设施
• 超大规模设计往往需要多机柜部署
• 在事务级加速场景下,执行速度通常低于 FPGA 架构

尽管如此,处理器式仿真依然成为硬件验证史上的重要支柱。

基于定制 FPGA 的仿真(Custom-FPGA-Based Emulator)

定制 FPGA:另一条欧洲路线

当 IBM 在美国推进处理器架构时,欧洲也在发展另一条完全不同的路线。

法国 Meta System 开始研发一种专门面向仿真工作的可编程芯片。

它们被称为“定制 FPGA”。

与商用 FPGA 不同,这类芯片并不追求通用逻辑实现能力,而是专门针对硬件验证优化。

其特点包括:
• 针对时序优化的确定性互连矩阵
• 高密度多端口存储
• 高带宽 I/O
• 内建调试引擎
• 专用时钟同步电路

这种专用化带来了明显收益:
• 编译与部署速度大幅提升
• 调试可见性更强
• 大规模设计性能扩展更稳定
• 功耗低于处理器式架构

Mentor Graphics 与“Emulator-on-Chip”

1996 年,Mentor Graphics 收购 Meta System,并推出 SimExpress。

这是第一款基于定制可编程芯片的商业仿真器。

虽然容量只有不到 10 万门,在当时已经显得偏小,但它证明了:

“为仿真专门设计芯片”是可行路线。

随后 Mentor 推出 Celaro,将容量扩展至约 500 万门,并通过集群扩展到 2000 万门以上。

但问题也开始显现:

由于定制 FPGA 密度不如顶级商用 FPGA,大规模设计需要更多芯片,导致互连路径更长、延迟更高。

大型系统运行频率甚至低于 1MHz。

虽然足够用于验证,但性能开始落后于部分 FPGA 平台。

IKOS、Virtual Wire 与事务级验证

2002 年,Mentor 收购 IKOS Systems。

这次收购带来了两项关键技术:

1. Virtual Wire

一种软件化互连方法。

它将复杂 FPGA 间布线抽象为软件控制层,大幅降低系统部署复杂度。

2. 事务级验证(Transaction-Based Verification)

验证不再通过低级信号翻转交互,而是直接交换:
• 数据包
• 协议事件
• 软件事务

这极大提升了验证效率。

这些技术最终演化成 Mentor 的 Veloce 平台。

随后 Mentor 又推出 TBX(TestBench Xpress)与 VirtuaLAB 等验证环境,使软件 testbench 能高效与仿真硬件协同工作。

2018 年,Siemens Digital Industries Software 收购 Mentor Graphics。

今天,这一路线已经发展为 Veloce Strato CS。

FPGA 的复兴(The FPGA Renaissance)

就在处理器式与定制 FPGA 仿真器逐渐成熟时,商用 FPGA 本身也在飞速进化。

90 年代后期,Xilinx 与Altera的新一代 FPGA 开始迅速提升:
• 逻辑密度
• 运行速度
• 布线能力

到了千禧年前后,Xilinx 推出 Virtex 系列。

这是一个关键转折点。

Virtex 首次提供 read-back 能力:

工程师可以在运行时直接查看寄存器与内部存储内容,而无需重新编译设计。

虽然会牺牲性能,但 Debug 能力获得巨大提升。

这重新点燃了行业对“基于商用 FPGA 构建仿真器”的兴趣。

相比定制芯片路线,商用 FPGA 有两个天然优势:
• 创新迭代速度更快
• 开发成本更低

EVE 与 ZeBu 的崛起

2000 年,四位前 Mentor 工程师创立了Emulation Verification Engineering(EVE)。

2003 年,他们推出 ZeBu。

第一代 ZeBu-ZV 使用两颗 Xilinx Virtex-II FPGA:
• 一颗负责 DUT
• 一颗负责事务级执行

其中最关键的创新是 RTB(Reconfigurable Testbench)。

它将 testbench 硬件化,通过事务级验证极大提升吞吐量。

之后 EVE 推出 ZeBu-XL,并逐渐发展成企业级平台。

2009 年 DAC 上发布的 ZeBu Server,更成为整个产品家族的重要里程碑。

其特点包括:
• 支持多机柜扩展
• 容量达到十亿门
• 增量编译
• 更快 place-and-route
• 多用户支持

更重要的是:

ZeBu 的执行速度超过竞争对手,而功耗却低得多。

其单门成本甚至低于每门 1 美分,彻底改写了行业对仿真成本的认知。

与强调 ICE 的传统路线不同,ZeBu 从一开始就更重视事务级验证。

这与后来 AI SoC、嵌入式软件、系统级验证需求高度契合。

Synopsys 进入仿真市场

其实早在 90 年代中期,Synopsys就尝试通过收购 Arkos 进入仿真市场。但失败了。真正的转折点发生在 2012 年。Synopsys 收购 EVE,并获得 ZeBu 产品线。

随后 Synopsys 持续投入:
• 更大容量
• 更高性能
• 更短编译时间
• 更强自动化
• 软件 bring-up
• 系统级验证
• 混合原型验证

至此,商用 FPGA 仿真正式成为行业主流长期路线。

总结

硬件仿真的历史,本质上是一场架构分化史。

从 80 年代利用 FPGA 做简单硬件加速,到今天支撑数十亿门 AI SoC 验证,它已经成为现代半导体开发不可缺少的核心基础设施。

在这几十年里,行业逐渐形成三条主路线:
• 处理器式仿真
• 定制 FPGA 仿真
• 商用 FPGA 仿真

它们都曾在特定时代解决关键问题。

而 AI 时代的到来,又重新改变了竞争规则。

如今验证已经不再只是 RTL 正确性验证,而是完整系统验证:
• 大模型运行
• 软件栈执行
• 系统级互联
• 异构计算架构

这意味着,真正重要的能力只剩下三项:
• 系统容量
• 执行性能
• 接口连接能力

只有三者同时平衡,才能真正完成现代 AI 芯片的预硅验证。

而目前来看,基于商用 FPGA 的仿真平台,正是最接近这一平衡点的路线。

它在:
• 可扩展性
• 执行速度
• 真实系统接口能力

之间,实现了最符合 AI 系统开发需求的综合平衡。

本文编译自:semiwiki