东数西算三计事，四代至强可扩展

从远程工作和学习成为必选项，到企业加速数字化转型，二十多年前提出的“数字化生存”在过去两年多中席卷全球。亿万大众和千行百业源源不断产生海量的数据，对算力的需求也持续增长，需要更高效的利用相对有限的资源。

国际数据公司（IDC）日前公布了2022～2026年的全球存储圈（StorageSphere）展望，据估算：2021年新增的存储容量达到7.9EB，其中约67%由企业管理；到2026年，这两个数字将分别上升至20.7EB和80%——由于越来越多的数据从消费者转向企业管理，整体的存储利用率也将从39%提高到42%。

*2021-2026年全球存储装机容量增长趋势

（来源：IDC，2022）*

随着保存在数据中心的数据占比越来越高，数据中心的统筹管理就成为进一步提高效率的关键。

工信部印发的《新型数据中心发展三年行动计划（2021-2023年）》要求，到2021年底，全国数据中心平均利用率力争提升到55%以上，总算力超过120 EFLOPS；到2023年底，两个指标分别为60%以上和超过200 EFLOPS，其中高性能算力占比达到10%。

2022年1月中旬和2月下旬，国家发改委、中央网信办、工信部、国家能源局分两批发出复函，先后同意内蒙古自治区、宁夏回族自治区、甘肃省、贵州省和京津冀地区、长三角地区、粤港澳大湾区、成渝地区启动建设全国一体化算力网络国家枢纽节点，并规划了10个国家数据中心集群，“东数西算”工程正式全面启动。

不难看出，跨区域的枢纽节点京津冀、长三角、粤港澳大湾区、成渝对应我国的四大经济区，从地理位置和人口分布上，属于“东数”；四个省级行政区域的枢纽节点贵州、内蒙古、甘肃、宁夏，地广人稀，资源丰富，属于“西算”。

10大集群.jpg
10个国家数据中心集群概略位置，以及“东数”、“西算”枢纽节点间的组对关系（来源：《2021中国云数据中心考察报告》，益企研究院）

在起步阶段，4个单一行政区域的的国家枢纽节点（“西算”区），原则上（各）布局1个集群；4个跨区域的国家枢纽节点（“东数”区），原则上（各）布局不超过2个集群。目前，我国最大经济区长三角和本身就是双头格局的成渝都已经规划了2个集群，所以一共是8个国家算力枢纽节点，设立10个国家数据中心集群。

“东数西算”工程的目标是布局建设全国一体化算力网络，国家枢纽节点之间进一步打通网络传输通道，优化东西部间互联网络和枢纽节点间直连网络，提升跨区域算力调度水平。国家枢纽节点以外的地区，统筹省内数据中心规划布局，与国家枢纽节点加强衔接，参与国家和省之间算力级联调度，开展算力与算法、数据、应用资源的一体化协同创新。

在城市城区范围，为规模适中、具有极低时延要求的边缘数据中心留出发展空间，确保城市资源高效利用。原则上，将大型和超大型数据中心布局到可再生能源等资源相对丰富的区域，优化网络、能源等资源保障。贵州、内蒙古、甘肃、宁夏等节点，重点提升算力服务品质和利用效率，充分发挥气候和资源优势，夯实网络等基础保障，积极承接全国范围需后台加工、离线分析、存储备份等非实时算力需求，打造面向全国的非实时性算力保障基地。

不难看出，“东数西算”工程的核心是分级（层）和互连，分级是手段，互连是保障。

分级：由近及远，逐层扩展

如果没有资源、成本等条件限制，数据中心当然在城市区、离人群近最好，就像数据如果就在CPU里肯定访问最快。但是，CPU啊CPU，真正的C位只有一个，中央区或者说核心区的容量也是非常有限的，大量运算所需的数据只能放在相对低速的内存（DRAM）里，而海量的“非实时性”数据则要存储在比内存还要慢几个数量级但容量也大几个数量级的SSD（固态盘）和硬盘里。这个道理，计算机体系架构和数据中心全国布局是相通的。

即使在CPU内部，存储资源也是分层的，从L1、L2到L3 Cache，容量逐级增大。得益于半导体技术的进步，Cache容量也会水涨船高。以5月英特尔On产业创新峰会开幕当日开始出货的代号为Sapphire Rapids的第四代英特尔® 至强® 可扩展处理器为例，与第三代至强® 可扩展处理器相比，不仅每个核心的L2 Cache容量增加了60%，由于核数有明显的增长，所有核心共享的L3 Cache（Last Level Cache，LLC）容量也增大60%以上，可以更好的处理数据密集型工作负载。

图1.jpg
多年来，英特尔还采用引入新型存储介质的方法，努力缩小不同存储层级之间的容量和性能差异。第二代至强® 可扩展处理器引入了傲腾™ 持久内存（Optane Persistent Memory），第四代至强® 可扩展处理器将支持新一代的300系列傲腾™ 持久内存（PMem 300）。

傲腾™ 持久内存填补了传统内存（DRAM）与高性能存储（如SSD）之间的空白，第四代至强® 可扩展处理器通过在封装内加入高带宽内存（High Bandwidth Memory，HBM），又可以填补L3 Cache与DRAM之间的空白。HBM的带宽明显高于DRAM，时延也更短，且拥有数十GB的容量，在某些特定用例下甚至不需要使用DDR接口的DRAM。

在增加新的数据（存储）层级上，“东数西算”布局里“东数”区的数据中心集群有类似的效果。以京津冀枢纽的张家口数据中心集群为例，从北京市区（数据中心）访问的时延大约在2～3个毫秒（ms）多，按照《全国一体化大数据中心协同创新体系算力枢纽实施方案》（以下简称《实施方案》）的建议，可以承载实时交互型的业务需求。

互连：时延递进，带宽升级

衡量互连有两个核心指标：时延，带宽。

在数据中心的层面，时延最终受限于节点间的物理距离，时延越短的数据中心，可以部署的应用类型，受限制就越少。《实施方案》中有如下建议：

城区内：数据中心端到端单向网络时延原则上在10毫秒（ms）范围内。作为算力“边缘”端，优先满足金融市场高频交易、虚拟现实/增强现实（VR/AR）、超高清视频、车联网、联网无人机、智慧电力、智能工厂、智能安防等实时性要求高的业务需求；

区域内（东数）：数据中心端到端单向网络时延原则上在20毫秒范围内。支撑工业互联网、金融证券、灾害预警、远程医疗、视频通话、人工智能推理等抵近一线、高频实时交互型的业务需求；

区域间（西算）：贵州、内蒙古、甘肃、宁夏节点内的数据中心集群。优先承接后台加工、离线分析、存储备份等非实时算力需求。

图2.jpg
结合上一节对张家口数据中心集群的介绍，不难看出，上述“数据中心端到端单向网络时延”的原则比较宽松，但总的原则基本成立。以城区来说，确实被业界视为边缘计算必争之地。

虚拟无线接入网（vRAN）是电信运营商将基带功能作为软件运行的一种方式，随着边缘计算和5G时代到来，vRAN面临着快速增长的需求。第四代至强® 可扩展处理器核心具有全新的5G特定信号处理指令增强功能，专为支持RAN特定信号处理而开发，可以使vRAN的容量增加两倍；该系列处理器还将采用集成加速功能的全新芯片，针对vRAN工作负载进行了优化。英特尔正与领先厂商合作，将基于第四代至强® 可扩展平台的全新解决方案推向市场。

与这些实时性要求高的业务需求相对，是可以跨区域部署的非实时性算力需求，譬如高性能计算（High Performance Computing，HPC）。E级超算（Exascale Computing，百亿亿次计算）是目前各先进国家努力的目标，美国阿贡国家实验室的极光（Aurora）超级计算机基于内置高带宽内存（HBM）的英特尔® 第四代至强® 可扩展处理器和代号为Ponte Vecchio的英特尔® 数据中心显卡，能够提供每秒超过两百亿亿次的双精度峰值计算性能，英特尔® oneAPI亦为开发者提供无缝的系统集成。

将这些大规模的超算系统部署在贵州、内蒙古、甘肃、宁夏等可再生能源丰富、气候适宜、数据中心绿色发展潜力较大的（西算区域）节点，不仅可以助力解决人类面临的疑难问题，如更准确地预测气候以及发现应对癌症的新疗法，还能有效的减少碳排放，保护我们生存的环境。

在带宽方面，第四代至强® 可扩展处理器也进行了全面的提升，具有更高的吞吐能力：

多CPU扩展：用于CPU之间互连的UPI 2.0，数量和带宽都比前代产品有明显增长，支持8路系统；

内存通道：升级为DDR5，带宽提升50%以上；

存储和网络I/O：PCIe 5.0，带宽翻倍，可以支持更高速的网卡（如800G）和存储设备；

还引入了CXL（Compute eXpress Link）1.1，支持加速器和内存扩展。

类比一下，如果京津冀到长三角，乃至扩大到8个国家级枢纽之间，互连的带宽提高一倍，将为数字经济的基础设施，带来何等显著的升级效果。

卸载：五大引擎，各有专精

分级更多的是从数据的角度来说，在解决了互连的问题之后，各大国家数据中心集群可以卸载一部分核心城市的算力需求，让核心城市的算力资源可以集中在最需要的应用上。

从CPU的角度也是如此，第四代至强® 可扩展处理器集成了5大加速器，可以卸载一些专用任务，让CPU的核心资源能尽可能的用于业务应用。
图3.jpg

AI推理对时延的要求较高，是在边缘端高发的工作负载。第四代至强® 可扩展处理器集成AI加速引擎AMX（Advanced Matrix Extensions，先进矩阵扩展），对AI推理进行全方位的优化，与第三代至强® 可扩展处理器相比，INT8数据类型的性能达到4.5 倍，BFloat16 数据类型的性能提高了6倍。

图4.jpg
在数据中转的过程中，譬如vRAN、数据包处理、CDN等使用场景，需要越来越多的连接，以更高的吞吐量来解决客户端密度的挑战。第四代至强® 处理器加入了QuickAssist Technology Accelerator（QAT），借助新的加密指令和软件增强功能，会获得比使用标准内核、标准指令高3倍左右的性能。QuickAssist结合公钥加密功能，与只使用CPU内核相比，会额外获得40%的性能提升；同时，还可以释放节点中4个额外的核心，用于处理其他生产性工作。

图5.jpg
其实，在数据存储的环节，也有大量的工作基本是在移动数据。第四代至强® 处理器加入了数据流加速器（Data Stream Accelerator，DSA），让应用可以将这些数据活动从CPU核心卸载到加速器。数据表明，DSA引擎可提供比核心高1.7倍的性能，并能将整体时延降低 45%。用户也可以在系统中使用4个或更少的核心，获得相同级别的性能。

图6.jpg
在这个云计算的时代，超过80%的新的云原生和SaaS应用预计将以微服务（microservice）的形式构建。第四代至强® 可扩展处理器为微服务的弹性计算模型而构建，上面提到的DSA可帮助用户更高效、更快速地在容器中启动和报废微服务，而QuickAssist技术可以整体降低通信需求的时延。新的AIA（Accelerator Interface Architecture）指令可以更有效的分配加速引擎的卸载工作，使得第四代至强® 处理器提供的微服务性能达到了第 99 个百分位的时延要求，性能比第二代至强® 处理器提升了69%，比第三代英特尔® 至强® 可扩展处理器也提升了35%以上。

图7.jpg
同时，英特尔® 软件防护扩展（Software Guard Extensions，SGX）大大增强了数据防护能力和应用，能够确保数据在多租户等环境中的安全性。

使用第四代至强® 可扩展处理器内置的加速器，可以释放CPU核心用于处理其他生产性工作，也可以减少使用的核心数量来获得相同的性能。用户无需再为特定的使用场景添加扩展卡加速器，就可以获得更高性能、更大吞吐量，或者部署更少的服务器达到相同的效果，从而减少数据中心整体的占用空间、功耗和冷却需求，符合东数西算节能降碳的潮流。

推荐阅读

目录