作者:赵瑜斌Robin,来源:IC后摩号
存储芯粒从传统2D DRAM瓶颈出发,经3D堆叠(HBM/HMC)提升带宽,演进至近存/存内计算架构,将算力移至数据旁以突破“存储墙”不断突破实现高能效处理。
1. 存储芯粒概述

爆炸式增长的数据迫切需要具有更大容量、更高带宽和更高能效的存储器:主流存储器的制备技术相对成熟,但集成密度和能效相对弱;新兴存储器则恰恰相反。架构上,通过优化现有存储架构和引入新兴非易失性存储器来解决问题。

SRAM(静态随机存取存储器) DRAM(动态随机存取存储器) MRAM(磁阻式随机存取存储器) PCRAM(相变随机存取存储器) FeRAM(铁电随机存取存储器) RRAM(阻变式随机存取存储器)
2. 用于存储的存储芯粒
由于存储单元面积大,主流存储器的2D架构外形尺寸较大,无法满足电子产品小型化的需求。此外,随着工艺微缩,主流存储器的成本增加而耐久性下降。

闪存被指出数据保持能力随着工艺微缩而下降(2019)。

随后,主流存储器的2D架构无法满足高性能存储的需求,需要优化主流存储架构。研究(2006)通过总线模型证明3D存储架构比2D架构具有更小的延迟,并且在密集型应用中,随着频率的增加,性能显著提升。

后在研究(2012)中发现NAND闪存中的错误比例随着写入/读取周期的增加而上升(下图)。

随后,Lee等人进一步优化了3D存储数据通道,与DDR5相比,HBM 1和HBM 2的带宽分别提高了4.6×和9.1×,功耗降低了42%。他们还提出了用于提高可测试性和可靠性的TSV自修复结构。

并且3D HBM架构被设计用于并行计算中数据存储,还采用2N预取数据机制来提高数据采集带宽(高达256GB/s)。

3. 存算一体的存储芯粒
在冯·诺依曼计算架构中,存储器和计算单元之间的数据传输能耗大约是计算能耗的4×,这显著降低了能效。存内计算可以在存储器内部完成数据计算和存储,在计算密集型应用中具有高能效。


与2D存储架构相比,3D存储架构通过垂直堆叠多个芯粒缩短了数据传输路径,有效降低了能耗并提高了热可靠性。

主流存储器PIM:SRAM架构
Agrawal等人(2020)设计了8TB SRAM芯粒,它利用寄生电容进行电压累积和点积计算。在可接受的精度下降范围内(1-5%),其能量延迟积比冯·诺依曼计算系统低38%。

SRAM存内计算架构(2020)可以同时执行乘法和求和运算,平均能效为3,511 TOPS/W(下图),使用7nm工艺制备面积为0.0032mm^2的SRAM芯粒。

2021的设计中制备了65nm SRAM存内计算芯粒,该芯粒动态利用工作负载的稀疏性来配置外围电路的输出精度以保持数据准确性(下图),在1.1V、100 MHz下,能效超过120 TOPS/W。

随后的研究具有3D架构的SRAM存内计算芯粒——读写稳定性分别提高了6.6%和17.6%。读写延迟时间分别减少了17.5%和6.6%,能量延迟积与基线相比降低了1.6×(下图)。

3.2 主流存储器PIM:DRAM与混合架构
虽然SRAM芯粒的设计和制备技术相对成熟,且具有最快的读写速度和最低的读写功耗,然而,由于需要四个或六个晶体管来存储1位数据,其存储单元面积较大。此外,SRAM的易失性需要持续供电,晶体管产生较高的静态功耗,这阻碍了其广泛应用。
Yu等人(2021)设计了用于神经网络中向量矩阵运算的嵌入式DRAM存内计算芯粒(下图)。该架构中增加了存储节点电容以提高数据保持时间,从而将系统能效提升至552.5 TOPS/W。

同时期使用垂直光学互连连接DRAM芯粒,消除了TSV之间的严重耦合。

Ali等人设计的DRAM芯粒,可以在奇数行中同时执行数据操作,提高操作的并行性和数据吞吐量,性能比基线提高了11.5×。

在存储芯粒的评估方法中,一种基于马尔可夫决策方法的分析模型,用于评估混合存储器(DRAM-NVM)的命中率和平均寿命(下图)。与同时期的模拟器相比,误差降低了2.93%,速度提高了10×。

利用DRAM芯粒的寄生电容来提高数据保持时间和信号质量成为主要路径。由于DRAM需要不断刷新,需要有效的评估方法来预测DRAM芯粒的可靠性。
3.3 新兴NVM-PIM:RRAM
RRAM与CMOS工艺兼容性好,适合高密度集成;然而,作为逻辑芯粒时,其结构中的导电细丝受金属原子随机性的影响,在逻辑模式下会产生随机噪声。RRAM芯粒更适合作为存储器。由于具有独特的迟滞特性,FinFET既可以设计为开关也可以设计为存储器。
(2020)研究设计了RAM架构可以重构为逻辑模式和存储模式,进一步开发了自适应布局和布线算法以提高有效利用率,其架构的功耗和延迟分别降低了1.9×和2.8×,性能比FPGA提高了5.6×。

在Li等人的研究中设计了RRAM芯粒的3D存内计算架构(下图),该架构使用四个芯粒堆叠,并使用铁电场效应晶体管作为选择器。与2D存储器相比,电压、能量延迟积和面积分别降低了74%、55%和4×。

3.4 新兴NVM-PIM:FRAM
FeRAM具有较低的读写时间和功耗,并且与CMOS工艺的兼容性最好;然而,FeRAM芯粒的成本较高,因为其电极材料是贵金属(Pt,Ir)。
Yin等人(2019)设计了基于FeRAM的存内计算芯粒,其面积和功耗分别是SRAM的58%和64%(下图)。

Soliman等人(2020)采用28nm CMOS工艺制备了一款FeRAM芯粒,在执行2位数据操作时,能效和延迟分别为13714TOPS/W和0.5ns(下图)。

FeRAM具有较低的读写时间和功耗,并且与CMOS工艺的兼容性最好;然而,FeRAM芯粒的成本较高,因为其电极材料是贵金属(Pt,Ir)。
3.5 新兴NVM-PIM:MRAM
MRAM的读写时间和电流较小,有望用作L2缓存,即补充现有缓存。Angizi等人(2020)设计了基于MRAM的芯粒以解决存内计算架构中的多周期逻辑问题。其能效和速度分别是ASIC的1.7×和11.2×。

Shreya等人(2021)设计了基于电压控制技术的自旋轨道矩MRAM存内计算芯粒。与传统结构相比,功耗和数据传输能耗分别降低了53.98%和2.7%。

3.3 新兴NVM-PIM:PCRAM
PCRAM芯粒需要较大的写入电流来熔化相变材料,数据保持能力受到相变材料非晶态电阻漂移的影响,且功耗和速度均不如RRAM。
Dong等人(2019)提出了一种用于并行计算中检查点的3D PCRAM芯粒,通过实现近乎瞬时的检查点,在百亿亿次级计算系统中引入的开销低于6%(下图)。

小结
主流存储器芯粒已广泛应用于物联网、PC、移动设备等领域。随着工艺微缩,当前的存储架构设计正面临带宽、容量、功耗和成本之间的折衷问题。SRAM芯粒读写时间最短(1ns)被用作缓存,然而更小型化的新型存储架构仍在不断演进。

. 由于设计和制造技术成熟,SRAM芯粒仍被用作小容量、快速读写的存储器(缓存)。
. MRAM和DRAM的工作电压和单元面积相近(电压:1V,1.5V;单元面积:10F^2)。MRAM的静态电流小于DRAM,可用作主存储器。
. 由于读写时间长且成本较低,NAND和NOR闪存是大容量存储的首选。
. PCRAM和RRAM有望以更小的静态电流(-10^(-4) A)补充现有的大容量存储,且其单元面积与NOR和NAND(10F^2,4F^2)相近。
. FeRAM的低读写能耗使其在低功耗应用中更具前景;然而,目前不成熟的工艺严重影响了NVM的量产。
. 基于芯粒的3D集成技术是设计高性能存储器的有效方法。基于主流存储器和新兴存储器的3D存内计算架构可以有效缩短数据移动距离,同时完成数据存储和计算,在以数据为中心的计算系统中具有明显的应用优势。
参考文献
Architecture of Computing System based on Chiplet, 2022
related materials