台积电官方论文，详细解读3nm

编者按：本文介绍了业界最快的3nm CMOS平台技术可行性。与传统FinFET技术相比，首次引入了具有由不同鳍配置组成的标准单元的FinFlex™，以提供关键的设计灵活性，从而实现更好的功率效率和性能优化。与我们之前的5nm CMOS工艺相比，实现了约1.6X逻辑密度的大幅扩展、18%的速度提高和34%的功率降低。这种FinFlex™平台技术提供了一流的PPAC价值，以充分满足5G和HPC应用中的产品创新。

简介

近年来，人工智能应用的激增和5G的部署一直是数据中心高性能计算以及边缘设备低功耗联网和处理能力的驱动力。随着机器学习在需要快速和准确处理大数据的广泛行业中被迅速采用，HPC正成为下一个关键的增长动力。具有最高性能和最佳功率效率的先进CMOS逻辑技术比以往任何时候都更重要，它将为我们的日常生活和社会的各个方面带来创新。

本文介绍了最先进的3nm平台技术，该技术具有目标器件性能、标准单元设计和关键基本规则的扩展创新。除了成功地将批量FinFET扩展到3nm节点之外，FinFlex™标准单元创新还提供了多单元架构所需的更大设计灵活性。该技术与跨越200mV的6 Vt产品相结合，提供了前所未有的设计灵活性，以最具竞争力的逻辑密度满足广泛的功率效率SoC需求和HPC应用的高性能需求。这一过程已在由高密度和高电流SRAM宏和逻辑测试芯片组成的开发测试车上得到验证。

设计灵活性–FinFlex™和多Vt

FinFlex™是一种具有不同散热片配置的创新标准单元架构，首次在这项3nm技术中引入。伴随着关键层的传统间距缩放，它实现了全节点的逻辑密度增加。为了进一步减少FinFET的面积，业界采用的典型方法是翅片间距缩放和翅片数量减少。随着翅片间距已经低于30nm，翅片数量减少到单个翅片，工艺变化和设备驱动能力不足成为进一步扩大规模的主要障碍。FinFlex™提供了如图1所示的几种配置，以解决缩放和性能之间的权衡问题。2-1鳍配置实现了面积减少，而不牺牲功率敏感应用的性能。二鳍器件可用于关键路径以利用其更高的电流，而单个鳍用于减少漏电流，它是迄今为止密度最高功耗最低的标准单元。类似地，3-2鳍配置，配备3鳍以获得更高的驱动电流，非常适合性能要求高的应用。在需要性能、功率和密度之间的良好平衡的情况下，可以应用常规的2-2鳍配置。与常规标准单元中仅具有晶体管级电容减少的简单鳍片切割不同，FinFlex™通过共同优化BEOL位置和路径，提供单元级面积缩放以及芯片级电容减少。此外，在该技术中有6种不同的Vt产品，设计者可以为单个N/PMOS选择不同的鳍数和Vt组合，以满足同一芯片上的宽范围速度和泄漏要求。图2显示了与我们的5nm节点相比，此3nm FinFlex™技术的ARM Cortex-72 CPU性能和面积改进。功率效率高的2-1cell在0.64X区域显示出30%的功率降低和11%的速度增益；高性能3-2配置，在0.85X面积下速度增益33%，功率降低12%；并且在0.72X区域，平衡的2-2单元23%的速度增益和22%的功率降低。这一创新是成功延长FinFET架构寿命的关键组件之一，适用于另一个全技术节点。

图1 FinFlex™示意图以及与传统方案的比较。与传统FinFET设计相比，面积减少和芯片级电容显著减少是该创新的主要优势。

图2 ARM Cortex-A72中的FinFlex™改进。FinFlex™ 2-1鳍配置的目标是超功率效率、2-2鳍高效功率和3-2鳍超高性能。每种配置都显示了N5技术的不同面积、速度和能效改进。

工艺架构

除了新颖的标准单元特性外，还采用了临界接地规则进行缩放，以实现比以前的5nm节点提高约1.6X的逻辑密度。在不同的鳍片布置中，鳍片宽度和外形优化在减小的栅极长度下保持所需的短沟道效应。实施低K间隔物以减少接触和栅极之间的寄生电容，而不影响产量和可靠性。具有双外延工艺的凸起源极/漏极被优化以提供沟道应变并降低源极/漏电极（S/D）电阻。第六代高K金属栅极（HK/MG）RMG工艺支持内核和I/O器件。新的接触方案和工艺解决方案在生产线的中降低了紧密CPP缩放的寄生电阻，同时保持了可观的产量和可靠性。我们还开发了先进的Cu/低k互连方案，该方案具有积极缩放的最小金属间距工艺。创新的屏障和衬垫工程以及图案化优化使BEOL金属和通孔RC保持在轨道上，而不会因缩放而影响芯片性能。

晶体管性能

基于品质因数（FOM），该3nm技术的2-1鳍配置提供了18%的等功率速度增益，或在相同速度下比我们的5nm技术降低了34%的功率，如图3所示。我们优化了鳍的宽度和轮廓，以在目标缩放Lg（图4）处获得约50mV/V的DIBL，证明FinFET在3nm节点处仍然是可行的架构。FOM性能以及NMOS和PMOS器件分别实现了该技术的目标性能，如图5和图6所示。为了充分实现FinFlex™的预期效益，消除可能降低固有翅片性能的翅片数量差异引起的负载效应至关重要。单鳍器件尤其脆弱，因为许多工艺步骤，例如蚀刻和外延，自然地与多鳍结构所经历的工艺步骤不同。图7显示，经过工艺优化后，2-1鳍配置的单鳍器件与设计一样，其二鳍对应器件的有功功率约为50%。对于高速应用，如图8所示，3-2鳍配置的速度增加了9%以上。六种电压范围>200mV的不同Vt选项（图9）可供选择，以进一步提供电源性能权衡的设计灵活性。由于器件变化在设计裕度预算中变得越来越重要，因此我们还实施了专门针对对抗变化的工艺改进，以将NMOS和PMOS的器件Vt失配（AVt）降低20%，如图10所示。对于I/O器件，图11中的LDD注入优化根据SCE控制所需的鳍轮廓将Iboff降低了2个数量级以上。

图3 FinFlex™ 2-1cell在固定功率下提供18%的SPD增益或在固定速度下降低34%的功率

图4 FinFET SCE的改进继续支持3nm技术所需的Lg缩放。

图5 品质因数（FOM）结构实现了所有Vt的目标功率速度性能。

图6 NMOS和PMOS器件都显示了目标性能。

图7 1-fin器件显示出50%的有功功率降低，不存在工艺负载引起的退化。

图8 FinFlex™ 3-2鳍具有额外的9% SPD增益。

图9 六种不同的Vt选项，跨度约200mV。

图10 展示了优异的失配性能。

图11 I/O器件Psb与速度的关系。通过LDD优化，Iboff显著降低。

互连技术

互连工艺在决定芯片整体性能方面发挥了越来越重要的作用。对于这种3nm技术，23nm处的最小金属间距用于实现FinFlex™ 2-1鳍配置的缩放，同时提供所需的布线效率。据我们所知，这是迄今为止在高级节点中报告的最紧密的金属间距。采用了创新的Cu衬垫，以将标称金属宽度的最小间距RC降低20%，将2X金属宽度的结构RC降低30%，如图12所示。基于图13中的创新屏障工艺，过孔Rc显著降低了约60%，这是实现这种激进间距缩放的重要组成部分。通过检查M0和Mx层的A线与B线的金属电阻，图14中A线和B线之间的可比分布证明了工艺的鲁棒性。在上部松弛金属节距以及ELK电介质处减少阻挡层厚度，以最小化总体BEOL RC延迟。图15显示了15级Cu/低k金属堆叠的横截面图。对于6级和15级金属，堆叠接触到通孔链的紧密Rc分布证明了该封装的稳定性。同时还对BEOL过程集成的可靠性进行了检验。图16（a）和16（b）分别验证了最小间距金属的Vx/Mx和Vx/Mx+1的优异EM性能和互连SM稳定性。在应力500小时后，具有规则和宽金属的Kelvin Rc结构的电阻偏移百分比可忽略不计。此外，上一代中需要EUV双图案化的三个关键层被单EUV图案化所取代，这降低了工艺复杂性、固有成本和循环时间。

图12 间距23nm金属线RC的增加，由创新的铜衬垫工艺控制。

图13 通过创新的屏障工艺，在最紧密的间距处显著降低Rc。

图14 A线和B线在大幅缩放间距下的M0/Mx金属电阻分布。

图15 15层金属叠层的TEM图像和通孔Rc叠层的紧密分布。

图16（a）最小螺距金属的EM性能；（b） Kelvin结构的SM。

产量和可靠性

HD和HC SRAM单元可用于低泄漏和高性能应用。由HD和HC 6-T SRAM 256Mb宏以及带有CPU/GPU/SoC块的逻辑测试芯片组成的产量学习工具可用于技术开发。0.021um2 HD SRAM单元的蝶形曲线如图17所示，其中显示了低至0.3V的单元稳定性。对于0.45V和0.6V操作，静态噪声容限（SNM）分别达到97mV和124mV。图18中256Mb HD SRAM宏的Shmoo图显示了低至0.5V的完整读写能力。256Mb HC/HD SRAM宏和类似产品的逻辑测试芯片在同一开发阶段始终显示出比我们的前几代更健康的缺陷密度。此外，两个256Mb HC/HD SRAM宏都通过了HTOL 1000小时鉴定（如图19所示），逻辑测试芯片通过了CPU的Vmin功率规格（如图20所示）。

图17 0.021um²高密度6-T SRAM单元的SNM。

图18 0.021um² HD 256Mb SRAM宏的Schmoo图，具有低至0.5V的完整读/写功能。

图19 HC/HD 256Mb SRAM均通过HTOL 1000小时规格。

图20 Vmin对逻辑测试芯片中CPU块的IDDQ。

结论

我们引入了业界领先的3nm FinFlex™ CMOS制造技术，该技术具有创新的设计灵活性和广泛的Vt选项。利用这一新的DTCO功能，可以将具有针对性能、功率和/或面积目标进行优化的不同功能块的产品设计集成在同一芯片上。加上关键的基本规则缩放和23nm的最小金属间距，该技术提供了迄今为止最高密度的同类最佳逻辑性能、功率效率和低Vmin SRAM。随着器件性能达到设计目标和工艺引起的变化得到适当解决，高性能HPC应用以及功率敏感SoC产品的苛刻要求都可以得到很好的满足。各种5G移动和AI/HPC应用的大规模生产技术成熟度已得到充分证明，该技术经过严格的技术鉴定，将保证稳定的产量和强大的可行性。

推荐阅读

目录