Intel Core Ultra解析:AI NPU+“小小核”的理想与现实

目录

- 替代P28、受益于H45的H28

- 大核+小核+小小核:三套全核 / Turbo频率

- 集成标配AI NPU:源自Movidius ASIC?

- LP E-Core没有三级缓存?

- CPU核心温度支持:提高到110℃!

- DDR5 Flex Memory非对称双通道内存

- 视频编解码加速:8K@60还是8K@30?

-显示输出接口:HDMI 2.1 8K与实际意义

-AI爆发?移动工作站、商用笔记本展望

不经意间看到Intel Core Ultra处理器的Datasheet已经上线了,我已经好多年没太仔细看过笔记本CPU的这个文档了,而这一次却吸引了我。虽然目前“Meteor Lake”还只是移动处理器,但它的变化大了些,有些应该会影响到Intel未来更多的CPU。

image.png

下图来自Intel的ppt,应该是去年底发布会时我就收藏了。

image.png

从功耗上来看,Intel Core Ultra里面的U系列还是15W基础功耗;而以往28W的“P28”则在新一代变成了“H28”;同样是H结尾的还有Ultra 9 185H——只有这一款是45W TDP。

关于一些技术要点,如LP E-Core、集成显卡、NPU神经网络处理器等,我会放在下文中具体讨论。

替代P28、受益于H45的H28

image.png

我关注的重点是移动工作站和商用笔记本,所以9W TDP的U Type4 BGA系列暂时先忽略。15W的U系列和28W/45W的H系列都是单芯片BGA2049封装,可以理解为它们支持共用主板平台,当然到具体的笔记本机型,还要考虑定位和散热设计等因素。

P-Core(性能核)、E-Core(能效核)和 LP E-Core(低功耗能效核,俗称小小核)的数量配比,U系列是2+8+2,H系列最多为6+8+2。H系列的图形Xe-Cores单元数量为8(性能应该较高)——是U系列4的两倍,所以具体到驱动的识别就是“Intel ARC”GPU,而U系列集成显卡则是Intel Graphics。

下表中的参数来自ark.intel.com网站,我手头暂时没有这方面合适的官方资料,索性自己整理了一下,以后查起来也方便。

大核+小核+小小核:三套全核 / Turbo频率

image.png

做这个表时我参考了Dell Latitude用户手册里的格式,当然在13代CPU及之前是没有“小小核”的

LP E-Core是Intel Core Ultra这一代最新引入的,我还没拿到样机测试过。如上表,它的基础频率和最高Turbo值,比之前就有的E-Core更低一些。

根据我标红之处,45W TDP的Ultra 9 185H明显拥有更高的全核主频,对于多线程计算密集型的应用,比如需要CPU来渲染、分析的移动工作站表现会更好。当然还有定位更高的55W TDP的HX系列,提供更多的CPU核心。

image.png

在上面的平台结构图中,我标出了一些显而易见的变化,比如新增的AI NPU、LPDDR5X-7467内存支持、DP 2.1显示输出等。1个x8 PCIe Gen5只针对H平台,这也是我认为H28明显受益于H45的一点,因为在以前的P28上,连接GPU应该只有x4 PCIe Gen4,所以基本上无法搭配高端一些的显卡。如今更加灵活了,虽然当前的移动显卡还没有PCIe Gen5,但4.0 x8已经不错了。

集成标配AI NPU:源自Movidius ASIC?

早些年Intel收购了Nervana和Movidius两家AI芯片公司,前者定位于数据中心,后者则是终端/边缘计算。Nervana后来被放弃又收购了Habana,Movidius虽然在发展但似乎一直没有规模太大的应用。这次Intel索性借着工艺的改进,集成进CPU“白送了”。我觉得先普及硬件应该是个好事,看相关应用软件的支持能否发展起来吧。

image.png
NPU的命名是Intel AI Boost

如上图,在NPU Specfications段落上方的是关于GPU的规格,之前我也看到有媒体针对两者AI性能的对比评测。这一代Xe/ARC集成显卡性能相对比NPU要强些,支持的计算数据类型多出了BF16,AI软件Frameworks也不差。而NPU当前的优势主要是能耗比。就像大核+小核可以同时计算那样,GPU和NPU有时也可以搭配干活的。

image.png

上面是NPU IP的简单结构图,我看到当前的2个Gen3神经网络计算引擎,每个应该是包括2个2K MACs和2个DSP(数字信号处理器)。从某种角度来说,NPU就是一个集成的ASIC。DSP的用途可以很宽泛,这里怀个旧,创新声卡的主芯片Emu10K1等属于DSP;天河2号HPC超算的协处理器也叫“GPDSP”(当时与GPU禁售有关)。

LP E-Core没有三级缓存?

image.png

如上图,Intel Core Ultra的P-Core、E-Core都是每个核心自己有MLC(L2 Cache)缓存;而LP E-Core则是2个核心共用MLC,并且它与System Agent(内存控制器)的数据路径之间跳过了LLC(L3 Cache)。

由于有共享的L3 Cache,P-Core和E-Core看起来更容易协作;而LP E-Core从设计上也是另有用途,比如执行特定的待机任务等。

CPU核心温度支持:提高到110℃!

image.png

关于Core Ultra的T-junction提高,说实话我也有点意外。我关注笔记本Intel CPU的温度支持,至少从15年前这个核心支持的上限就是100℃左右,后来台式机CPU也是这个水平。

扩展阅读《CPU的温度、功耗&风扇噪声控制模型

前几天我还跟同事聊RAID卡的散热,依稀记得看到过有的Broadcom/LSI RoC芯片支持到110℃(耐热吧),而像Xeon、NVIDIA高端GPU这样的大型芯片支持的温度反而则会低一些。通常人们聊起半导体制程改进,更多看的是集成度和性能,尽管我对Intel 7、Intel 4这些宣传语没啥太多感觉,但我想这次的110℃还是挺有代表性的。

当然,笔记本的外壳表面温度,从散热设计上还是要维持住。而对于有些第三方监控软件,之前习惯的95-100℃ CPU报警温度,可以再放宽一些了:)

DDR5 Flex Memory非对称双通道内存

image.png

非对称双通道内存,我并不觉得是个新技术,只是第一次看到在Intel文档里正式提及。上图中的C区域应该是保持单通道内存的性能吧。这个的适用面,主要是有些笔记本有板载8/16GB内存,在扩展添加一条不同容量时出现不对称的情况。

从最佳性能的角度,无论彻底板载双通道、传统的2个SO-DIMM内存插槽,或者新型的CAMM,还是对称双通道的性能最理想。

扩展阅读《移动工作站DDR5内存频率之殇:怎么破?

视频编解码加速:8K@60还是8K@30?

image.png

Intel早就宣传CPU的集显支持8K视频解码,不过这里还是写的很实在,Decode only能到60 FPS,而如果是解码+回放(Playback)只能支持到8K@30帧。

有什么区别呢?我拿电视盒子来举个例吧:有些只支持4K输出,但却标称8K解码,就是能正常播放8K文件,但最高显示在4K屏幕上。回到显卡上面,因为真正输出到8K分辨率并渲染视频也需要更多资源;如果播放在4K或者FHD屏幕就相对容易了。

如果有纯8K@60需求的怎么搞?还是用中高端独显吧,想想CPU集成显卡已经不容易了。

扩展阅读《双路Xeon NUMA优化取舍:DaVinci 4K/8K视频编辑调色测试》_

image.png

硬件加速视频编码部分,HEVC/H265可以支持8K(4320p)@60,VP9和AV1编码则支持到8K@30。

显示输出接口:HDMI 2.1 8K与实际意义

image.png

在前文中,我就提到Intel Core Ultra支持的DP接口升级到2.1(最高规格,之前是1.4a,取决于具体笔记本设计),但以前也支持7680 x 4320即8K分辨率了,因为有DSC压缩。

反而是HDMI 2.1的分辨率可以支持到8K,这算实质的一点升级吧——详见下图:

image.png

8K 60Hz也是DSC压缩格式,只有在HDMI 2.1 12 Gbps速率下,这时4路FRL Lane信号带宽加起来距离无压缩8K还是差一点。

扩展阅读《_6K显示器&新一代接口:DP 2.0__、HDMI 2.1__、雷电4__应用解析

玩转专业8K_显示器:你需要知道的事》(较早出现的,靠双DP口驱动的8K显示器)

image.png

作为参照,我列出之前的13代Core HX高端机型,Dell Precision 7680移动工作站的规格截图。它只有在配独立显卡GPU并直接输出的情况下,才能支持HDMI的8K分辨率。而13代H45 CPU的HDMI也达不到这个能力。

理论上Core Ultra H系列的上限提高了,但我并不认为UMA在8K分辨率下能跑多高的性能(甚至以前同时带2个4K屏都有点吃力),所以大家有一个正确的期望值就好。

AI爆发?移动工作站、商用笔记本展望

对于AI在PC端的发展,说实话我还看不太清,但Intel Core Ultra这一代的CPU改进确实比之前几代都要大,对促进笔记本换机应该有帮助吧。

关于Core Ultra CPU与笔记本定位的搭配,我理解可能会是这样的:

- U15__:部分入门级和超轻薄机型;

- U15-H28__:主流商用本、入门级移动工作站;

- H28-H45__:主流(中端)性能移动工作站。

至于具体的品牌,我想每个人可能都会有自己的喜好。商用笔记本和移动工作站的御三家D、H、L我不用说大家也知道。

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5613
内容数
260
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息