来源:内容翻译自「tomshardware」仅供参考,详情查看原文,谢谢。
总部位于中国的兆芯半导体的公司名大致可译为“百万核”,他们之前推出了一款基于其神秘的陆家嘴(LuJiaZui)微架构,采用台积电16nm FinFET工艺制造的八核处理器KaiXian KX-U6780A。基于该架构的芯片为中国本土的台式PC到服务器带来了更强支持,而KX-6000系列则面向游戏机,PC和办公机。
最近,我们在兆芯的HX002EH1演示板上测试该芯片,以确定它是否可以跻身我们最佳游戏CPU列表之列。
在中国,兆芯不是家喻户晓的名字,但它是设计定制x86处理器的极少数公司之一。这意味着它可以与这个领域的主要芯片生产商AMD和Intel竞争。无晶圆厂兆芯由上海市政府和中国台湾的威盛电子有限公司合资而成。
兆芯公司是专门为中国市场设计处理器,根据他们的说法,其他们的芯片性能与英特尔第七代Core i5-7400相当。鉴于英特尔第七代处理器于2017年初首次亮相,这肯定不会过分令人印象深刻,但它标志着兆芯向前迈出了一大步。兆芯声称其新的陆家嘴微体系架构的单周期指令(IPC)吞吐量比之前的五道口(WuDaoKou)架构提高了1.5倍。它还还具有一些新功能,例如兆芯的首个集成图形引擎。KX-6000产品线朝着更大的目标迈出了一步:在该公司的下一代7nm芯片(配备DDR5内存和PCIe 4)之前充当一个中间处理器。
但是,要破坏现有的双寡头垄断并非易事。让我们快速了解一下兆芯KX-6000系列,然后深入谈一下我们的测试结果。
中国的芯片之路
迄今为止,中国是世界上最大的处理器进口国,其中大部分以成品出口。但是,该国长期以来一直寻求摆脱西方对其经济的影响,因为中国仅生产其国内使用的芯片的16%左右,而且该生产中只有一半是由中国控制。因此,如果出现封锁或关税纠纷的情况,中国对西方CPU的依赖就会对中国经济构成了严重影响。
因此,中国在80年代初就启动了自己的处理器制造计划。在中美贸易战爆发之前,美国长期以来一直阻止中国通过并购获得技术和设备来制造芯片的尝试,这种情况近来尤甚。但是,中国的晶圆代工厂中芯国际和其他晶圆代工厂仍在继续发展。但中国不受外部环境影响,大力发展本土芯片设计产业。在X86处理器方面,2016年,AMD与曙光公司合作,开发以基于其Zen架构的Dyhana处理器。
在市场因素的推动下,其他中国本土公司也加入了竞争,但采用非x86架构。华为已经为其台式计算机OEM厂商的主板系列开发了Kunpeng 920 Armv8处理器,而Phytium Technologies也在对外销售ARM芯片。考虑到Windows在ARM上的兴起,这一点很重要,中国公司Loon龙芯也继续推进其MIPS设计。
但是, x86-64处理器具有无可替代的普遍性,并且兆芯拥有大量的应用。包括联想和惠普都面向中国市场推出了基于兆芯芯片的产品,联想提供了其Kaitian台式机,Zhaoyang FF03笔记本电脑和服务器产品。惠普也有一系列产品,包括由KX-U6780A处理器提供动力的HP 268 Pro G1 MT。
兆芯KX-6000系列规格
兆芯并不是芯片设计的新手。该公司成立于2013年,其首个CPU内核来自于VIA Technologies在1999年收购的Centaur微体系结构。兆芯紧随其后的是其自己的WuDaoKau架构,该架构代表了对以赛亚(Isaiah)进行的全面重新设计,如今这已演变为x86-64 LuiJiaZui微体系结构。
Khoaxin芯片的前四个迭代是在华力的28nm工艺上制造的,这意味着它们完全是中国制造的处理器。Zhoaxin的KX-6000系列采用台积电(TSMC)的16nm工艺,下一代芯片将采用基于7nm工艺的DDR5和PCIe 5.0。兆芯是否将使用中芯国际(SMIC)或者台积电(TSMC)的产线生产KX-7000系列芯片目前尚无定论,但后者的可能性更大。
我们对LuiJiaZui体系结构了解甚少。我们确实知道该处理器具有超标量乱序的(superscalar out-of-order multi-issue)体系架构,但是该公司从没发布过相关框图或更多细节。该架构支持AVX(256位宽度)和SSE 4.2指令集,以及VMX虚拟化(与Intel的VT-X兼容)。过去,Zhoaxin的芯片依靠其ZX-100S芯片组中内置的外部图形处理器,但是KX-6000标志着该公司自己的集成图形引擎的首次亮相。
70W芯片采用可焊接(soldered-down)的HFCBGA封装,尺寸为35mm x 35mm,因此,您必须随芯片一起购买主板(没有socketed)。KX-6000系列有四核和八核版本。
旗舰产品KX-U6880A带有八个内核,它们可以在高达3.0 GHz的频率下运行,比上一代机型增加了1 GHz。我们的KX-U6780A型号的时钟频率为2.7 GHz,并且与旗舰产品一样,具有八个核心和八个线程。KX-6000系列配备了八个32KB的L1数据和指令高速缓存片,以及8MB的L2高速缓存划分为两个4MB片(L1和L2高速缓存是8路组关联)。该芯片没有任何三级缓存。
就两项关键技术而言,这些芯片还处于初级阶段:Boost频率和同步多线程(SMT)。
与Intel和AMD不同,KX-6000芯片没有SMT /超线程,这使线程工作负载的性能有所提高。这些芯片也不具有boost 功能,因此,如果您选择Windows大功率或平衡功率配置文件,则它们将在2.7 GHz的频率下运行,而不管工作量,电气或热条件如何(除了用于自我保护的正常温度调节机制之外) 。那就意味着更好的散热效果将无法发挥出更高的性能,而且菜单上也没有超频功能。如上我们的升压测试所示,使用省电功能确实可以实现P状态转换,但这是为省电而设计的,而不是将性能扩展到超过70W的功率预算。
第一代ZX-C芯片确实具有增强功能,但是在较新版本的体系结构中显然不赞成使用此功能。显然,这对轻线程应用程序具有性能影响。该芯片还支持C1-C4 C状态。
Khaoxin列出了支持双通道DDR4-2666(不支持ECC)的芯片,但是我们的spartan开发板不允许操作内存频率和时序,并且不支持XMP配置文件。这些选项可能已在出厂的时候启用,但就目前而言,开发板仅使用默认的SPD配置文件。这意味着您必须购买昂贵的套件,并针对更高的频率量身定制。兆芯表示,预计该芯片将来会支持DDR4-3200,但仍在开发中。
该处理器具有16条PCIe 3.0通道,并具有一个未公开架构的集成图形引擎(该架构基于威盛合作伙伴S3 Graphics的 IP )。我们确实知道它支持DX11,OpenCL 1.1和OpenGL 3.2,并具有硬件加速的视频编码和解码功能,但是细节很少,GPU监视应用程序无法在体系结构组件上抓取更多细节。集成的图形支持DisplayPort,eDP,HDMI和VGA接口,并可以4K分辨率同时输出到两个屏幕。
兆芯告诉我们使用默认的Windows 10显示驱动程序以获得最佳性能,该分辨率在最低质量设置下以1280x720在DOTA 2中产生15 fps。我们还在HP的产品上找到兆芯图形DCH驱动程序,并对其进行了调试。惠普的驱动程序用于Windows 10中国政府版,该版本旨在满足中国的安全和隐私标准(微软为中国政府专门为此特殊版本的Windows剥离了所有间谍软件,我们无权访问)。
该驱动程序在我们的Windows 10 Pro测试映像上安装得很好,从而获得了上表所列的性能。我们同时对DDR4-2133和DDR4-2666进行了测试,但是增加的内存吞吐量并没有像我们在Intel和AMD iGPU上通常看到的那样带来大幅的性能提升。1280x720时〜1.6 fps的增益以及1920x1080时没有改善,这意味着瓶颈处在其他地方。无论哪种情况,这些性能指标都大大落后于Core i5-7400的UHD Graphics 630引擎。我们认为与AMD一起获得集成显卡性能仍然是最好的选择。
Dota 2在兆芯测试系统上的加载也非常慢,并且在我们的部分测试运行中通常没有响应。因此,您需要将KX-U6780A与独立的GPU配对才能获得体面的游戏体验,更不用说获得DX12支持了。接下来的页面中,我们进行了大量的独立GPU测试。
该处理器支持Linux,Windows 10和中国自制的“ 本土操作系统 ”。中国对国产设计和生产的芯片也有严格的加密技术要求,其中包括由中国国家标准定义的自己的SM3和SM4加密哈希函数(基于椭圆曲线密码学)。这与包含处理器的Hygon系列的经过修改的AMD EPYC设计中使用的加密类似,其明显目的是避免通过潜在的后门加密算法来破解。中国互联网信息中心声称,SM3与SHA-256具有相似的安全性和效率,而SM4与AES-128类似。该芯片还支持SHA-1和SHA-256。
在安全漏洞方面,这些芯片确实需要针对Spectre Variant 2采取措施,且不会遭受Meltdown的影响。兆芯正在将Spectre v2的硅内修复集成到未来的体系结构中。在针对具有推测执行功能的处理器的其他措施方面,我们不知道该公司的状态。
尽管我们已经在市场上看到了系统,但是Zhaoxin没有指定KX-U6780A的价格。鉴于价格缺乏,并且我们正在使用开发板而不是装运的主板进行测试,因此可以将其视为性能预览。
让我们仔细看看。
兆芯KX-6000 IPC和性能扩展
我们更喜欢通过将所有处理器锁定在相同的频率上来测量每周期指令(IPC)的吞吐量,通常匹配最快处理器的最小基本速度,以最大程度地减少对缓存和架构时序的影响,这些时序会影响性能。但是,兆芯 KX-U6780A的频率仅为2.7 GHz,远远低于同类处理器的最低基本速度,而spartan BIOS不支持修改乘法器。我们也无法调整内存时序。因此,我们在不具有升压(boost)机制或固定时钟频率(A10-9700)的可比较处理器上进行了测试,以确保静态频率,将内存设置为每个芯片支持的频率,然后对结果进行归一化。这不是我们首选的方法,但是对于手头的任务来说已经足够了。
我们将兆芯KX-U6780A设为基准模型,但显然明显落后于竞争对手的芯片。AMD采用Zen之前一代核心Excavator的Bristol Ridge A10-9700在所有指标上均击败了兆芯芯片,而采用12nm Zen +架构的Ryzen 3 3200G则进一步扩大了领先优势。配备Zen 2的Ryzen 5 3600巩固了AMD的领先地位。
英特尔的Kaby Lake也同样领先兆芯,代表着更新的Skylake架构的总体IPC趋势。英特尔当前一代的Coffee Lake处理器提供了几乎相同的IPC性能,因此这是对英特尔当前工作状态的准确描述,其中包括安全措施。英特尔在微体系结构方面的停滞在与AMD竞争时显得被动,但与兆芯相比,它仍有很大的喘息空间。
兆芯的主要职责是将来通过架构增强和增加频率来改善IPC,但这并不是一个简单的主张:芯片的其他方面也必须步调一致。
我们的第一张图表包含我们在每个处理器上获得的多线程Cinebench得分(多核),以及该得分除以内核数(多线程每核得分)。我们还包括了Cinebench单线程测试(单线程分数)的结果。
这些线程密集的应用使我们了解了每个工作负载在相应体系结构上的扩展程度。在这些测试中,线程化在提高每核性能方面都发挥着作用,但是无论核心数量如何,我们都只关注于每个物理核心的性能。KX-U6780A获得较差的每核性能,但是可能还有其他架构问题在起作用,从而阻碍了可扩展性。
请注意我们根据多线程结果计算出的每核心分数,以及根据单线程测试得出的分数。您会注意到,具有超线程功能的芯片在多线程测试中获得的性能要高于我们的计算,通常在约20%的范围内,因为现在两个线程都在单个内核上处于活动状态。对于采用升压技术的芯片,尽管考虑到测试时间的长短,它们通常还具有更高的单核升压频率的额外好处。不用说,这些技术的结合将使兆芯的处理器受益。
但是,还有其他因素可能会限制性能可伸缩性。
Core i3-8100没有Hyper-Threading或Boost技术,您会注意到,在将单线程测试结果与我们根据计算得出的单核测试结果进行比较时,它会损失一些性能,尽管不是很多。而在多线程测试中,这些类型的缩放损失可能来自高速缓存和fabric contention,这种情况会因占用带宽的线程依赖性而加剧,因此必须在处理器的设计阶段考虑这些因素。您必须正确调整fabric的大小才能完成工作,在这里我们可以确定兆芯的芯片在两次测量之间仅损失了四个点。通过POV-Ray测试,您会看到类似的趋势。
提升每核性能需要更快的互连来处理核间流量,更不用说访问内存和I / O设备了。这就是AMD和Intel如此频繁地在营销材料中吹嘘互联的关键原因,因为它对工作负载可伸缩性产生了巨大影响。
KX-U6780A的制程节点很有可能会提高时钟频率,但要达到每核性能与芯片互连之间的正确平衡,最好的方法是回拨频率(dialing back )以匹配互连饱和点(interconnect saturation point,),从而降低电压/频率曲线,并产生更好的功率效率和散热。但在兆芯共享更多有关其体系结构的详细信息之前,我们并不了解。
我们还在V-Ray和Stockfish基准测试中包括了缩放测试,这两个缩放比例都很好,并且在运行期间完全饱和了核心。我们没有可比的单线程测试结果(没有基准测试结果),但是它确实提供了一个有趣的整体观点,即兆芯如何依靠更多的内核与设计效率更高的芯片竞争。
兆芯KX-U6780A的功耗
测量功耗始终是一个棘手的问题,不同的方法会产生不同的结果。在物理层截取功率(即在8针连接器处进行测量)可提供最准确的测量结果,但VRM效率低下会导致更高的功耗测量值,与处理器消耗的实际功率不匹配。
许多软件实用程序提供了详细的电源记录功能,但是某些主板上的这些报告可能不准确。但是,轮询传感器环路(polling the sensor loop)的优势归结为以下几点:该技术可测量处理器本身消耗的实际电量。为了在确保准确性的同时兼顾两者的优势,我们通常会比较物理层的功率测量结果和从传感器回路提取的功率测量结果,以验证软件输出是否合理。该技术可以进行细粒度的电源测试,该测试代表了被测处理器的实际功耗。
不幸的是,兆芯开发板不支持基于传感器环路的功率记录,因此我们转向 Passmark的Inline PSU测试仪来测量流入8针连接器的功率量。该器件以直通模式进行测量,具有很高的精度,并具有扩展的日志记录功能,使其成为我们的电力测试工具库的绝佳补充。但是,Khaoxin处理器的测量结果直接来自8针连接器,而不是来自传感器环路的信息,因此您必须考虑VRM效率低下的问题,这可能会使功率读数降低10%到15%。
兆新的设计也使事情复杂化。我们对LiuJiaLolapoolza架构知之甚少,但该公司告知我们,虽然芯片组和图形单元是散热器下方单个单片芯片的一部分,但这些单元从通过24针连接器馈电的单独电源域中获取电源。该公司使用特殊的主板来测量处理器的总功耗,但我们无法使用该设备。
由于这种电源分配方式,我们无法确定封装的实际总功耗(具体来说,我们无法知道从24针流向处理器的功率多少)。但是,我们确实通过8针连接器测量了约55W的功耗,并且在考虑了VRM损耗之后,我们正在寻找的功耗与制造在28nm上的AMD A10-9700大致相同,甚至略有降低。
即使功率结果有些不清楚,我们仍然可以看到较旧的16纳米工艺所赋予的功率负担。当该公司使用KX-7000系列转向7纳米工艺时,这肯定会有所改善,但是不足为奇的是,与具有较小工艺节点的竞争处理器相比,KX-U6780A的电源效率不是很高,而后者具有更低的功耗和更高的性能。
兆芯HX002EH1开发板
普通消费者永远不会看到此参考验证板,因为它是为兆芯自己的内部开发工作而设计的。我们可以看到,位于芯片顶部的备用冷却器带有三个热管以有效散热,但风扇很大,BIOS没有提供任何bells 或whistle,例如自定义风扇曲线。相反,风扇会根据负载自行运行。
定制散热器安装在与16通道PCIe插槽相邻的BGA封装上(通道宽度为x8)。该板还包含一个4通道和3个单通道PCIe插槽,以及一个老式的PCI插槽。
PCB四层板尺寸为244 mm x 305 mm,这意味着它符合ATX规范。因此,它还支持标准的ATX电源连接,例如24针和单个8针用于供电。8引脚为三相供电子系统供电,该子系统不附带额外的冷却装置,例如散热器。鉴于该芯片的TDP为70W,这并不是什么大问题。
该板提供了不错的连接帮助,其中包括VGA,HDMI和DisplayPort输出以及以下组件:
四个SATA 3.0连接器
一个PCIe M.2-
一个C型连接器上
一个USB 3.1 Gen 2端口-一个C型插针接头上一个USB 3.1 Gen 2端口
一个A型连接器上两个USB 3.1 Gen 1端口
两个USB一个针脚接头上的3.1 Gen 1端口
一个A型连接器上两个USB2.0端口
x4针接头上的八个USB2.0-
两个UART端口
一个音频编解码器ALC662
主板上装有ZX-200 IO扩展芯片(6W芯片组) )提供了八个PCIe 2.0通道,并内置了SATA和USB控制器。如上所述,40nm芯片最多可支持11个USB端口。兆芯表示,该芯片组用于台式PC,一体机和笔记本电脑。
该板极简陋,并具有可匹配的BIOS。您无法指定内存频率或时间,不允许超频,并且几乎所有功能都会自动处理。我们认为,定制主板将带有更多发烧友的修饰,尽管考虑到芯片的功能,我们不会期望在高端板上看到如此出色的RGB灯光秀和强大的电源散热解决方案。
测试笔记
我们在DDR4-2133和DDR4-2666上测试了游戏套件,并在一些游戏中记录了性能差异。我们将DDR4-2133结果包括其中,超出正常标准偏差的范围有所增加。这对兆芯未来对DDR4-3200的支持来说是一个好兆头,尽管规定您需要带有预定义DDR4-3200 SPD的昂贵套件。
合成(Synthetic)游戏基准通常不能指示真实的性能,但3DMark DX11和DX12测试可以衡量游戏引擎所具有的原始计算能力。就目前而言,当今大多数游戏引擎都无法通过额外的计算资源线性扩展,但是这些测试有助于我们评估随着引擎变得越来越复杂,游戏如何利用处理资源。
在Fire Strike基准测试的综合世界中,除超频的Ryzen 3 3000G以外,兆芯处理器的扩展性很好,几乎击败了所有双核竞争对手。而与兆芯用作比较点的酷睿i5-7400相比,领先份额达到8%,这对于后来者的兆芯来说并不算差。但是,进行DX12物理测试后,发现兆芯处理器几乎无法超越AMD的Bristol Ridge A10-9700。前一代Athlon处理器仅具有两个内核,其性能也优于KX-U6780A。
VRMark测试体现每核性能(频率和IPC的混合),从而揭示了KX-U6780A在轻线程工作负载方面的弱点。甚至2016年推出的Bristol Ridge芯片也胜过Khaoxin处理器。同时,Core i5-7400接近榜首。
Civilization VI体现每核性能,因此看到英特尔芯片在基于回合制策略游戏的AI引擎性能测试中处于领先地位也就不足为奇了。KX-U6780A由于其较低的IPC和受限制的时钟频率而在这里没有竞争力,但它在Bristol Ridge A10-9700的范围内。但是,Socket AM4在连续几代AMD中的性能要好得多。
Stockfish是一种开源chess引擎,旨在通过扩展到512核,从多核芯片中获得最大的性能。这种可扩展性与KX-U6780A的八核设计很好地吻合,但是四核Intel i3机型继续领先很大。
Ashes of the Singularity::升级喜欢核心和线程,但时钟速率显然起着作用。当然,这对八核KX-U6780A毫无帮助,因为它击败了除A10-9700以外的所有机型。甚至双核四线程Athlon 200GE也领先了24%,尽管很明显,此类处理器并非最适合这样的高线程工作负载。
《文明6》以其较高的时钟频率而闻名,因此再次发现兆芯芯片与Bristol Ridge的争斗也就不足为奇了。从DDR4-2133切换到DDR4-2666时,我们确实看到了一点点提升,因此升级到DDR4-3200可能会在将来提供更多性能。不过,我们不会指望奇迹。
Warhammer 40,000基准测试对线程处理的响应很好,但是很明显,随着第8代和第9代芯片的领先,英特尔的时钟速度和IPC优势会产生影响。不过,比不上Ryzen 3 3200G,鉴于其价格点,该产品获得了可观的成绩。兆芯筹码明显落后。
孤岛惊魂5(Far Cry 5)讲述了一个现在熟悉的故事,在我们其余的测试中,测试表现基本相似。
我们使用标准质量预设运行此测试,以避开导致游戏引擎使用更高分辨率设置渲染屏幕外对象的错误的影响。兆芯芯片比上一代双核奔腾G4560高4.9 fps,这是与英特尔芯片大有可为的胜利。但是,那些胜利不会经常出现。
在使用兆芯处理器的《 Hitman 2》序列中,我们经历了重大的难题,但A10-9700的性能也不佳。
尽管 据称Project CARS 2已针对线程优化,但时钟速率显然会影响该标题的帧速率。很明显,在大多数游戏中,KX-U6780A的性能都与A10-9700类似。
《坦克世界》基准测试丝毫不令人意外,KX-U6780A再次落后。
兆芯提供的开发板上的固件当然是spartan affair,因此很少有选择。与任何类型的内存操作一样,超频也不可行。但是,我们确实找到了禁用AVX的选项,但是我们被告知此功能是为了解决与某些应用程序的兼容性。我们发现它确实在某些工作负载中提供了更高的性能,并且已经将这些结果包括在相关的测试中。
我们预计高线程工作负载将展现八核兆芯的最佳性能,但这仅体现在少数工作负载上。大多数测试都发现处理器落后于双核竞争对手。该芯片的确比游戏基准测试中的排名高出很多,但是很明显,它缺乏单线程性能。
例如,兆芯芯片在单线程Cinebench测试中远远落后于竞争模型,但凭借其额外的内核,它在线程Cinebench结果处在中间。
使用disable AVX选项可以产生一些额外的性能,在多线程测试中达到5.5%的额外性能,在单线程测试中达到5.8%的性能,但这还不足以打赢双核Core i3-7100,更不用说现代的四核芯片了。这可能是软件优化问题,但是我们看到POV-Ray出现了类似的趋势,尽管性能远远落后于竞争对手的处理器。
兆芯芯片在Blender基准测试中设法击败了奔腾产品线,但在Corona 和v-ray测试中却落后于较新的奔腾型号。
编码方式
我们通常使用Intel / Netflix设计的SVT-AV1视频编码器来测试线程编码应用程序中的性能,但是兆芯处理器未能正确执行该测试。这给我们留下了单线程LAME和FLAC编码测试结果,与英特尔和AMD的竞争芯片相比,这两个结果都显示出巨大的性能差异。这可能是缺乏针对该架构的软件优化,但是很显然,在未来的兆芯架构中,这种单线程性能需要通过更高频率和微体系结构的进步来大幅度提高。
线程化的HandBrake x264和x265测试再次揭示了兆芯芯片在AVX工作负载中的性能不佳。与x264测试相比,x265测试使用的AVX指令分配量更大,但在这两个测试中,即使A10-9700中AMD老化的Excavator内核也优于KX-U6780A。
网页浏览器
与其他类型的应用程序相比,浏览器受近期安全性影响更大,因此,英特尔通常会在这些功能全面的系统基准测试中大放异彩。但是,无论是英特尔还是AMD,兆芯信处理器都不会面临任何有意义的竞争。结果不言而喻– KX-U6780A在轻线程应用程序中不是竞争者。
办公与生产力
兆芯处理器在所有办公室和生产力测试中均无法给人留下深刻印象,因为它大幅失去了所有基准。我们希望这些芯片能在政府办公室中得到广泛使用,但是这将带来严厉的性能损失,并且在这些类型的应用中通常性能会下降。
压缩,解压缩,加密,AVX
7zip和Zlib压缩/解压缩基准测试在很大程度上依赖线程处理,并直接从系统内存中进行工作,从而避免了这类任务中的传统存储瓶颈。KX-U6780A在这些测试中提供了令人印象深刻的性能,因为它可以利用其内存吞吐量和内核来吞噬工作负载,从而击败了四核Intel处理器。AMD双核Ryzen 3 3200G凭借其四个线程证明了自己的能力,因为它在7zip解压缩和压缩工作负载方面均领先于兆芯芯片。
使用繁重的AVX指令集计算pi的重线程y-cruncher基准测试发现,通过在BIOS中切换AVX兼容性功能,兆芯芯片的性能有了明显提高,但我们看到了令人担忧的单线程性能趋势被线程化工作负载中八个核心的繁重量所抵消。无论哪种情况,在八线程处理器中,在线程化工作负载中败给50美元的双核Athlon 200GE都不是一个好选择。
中国采用国家定义的加密技术是其自主研发的CPU计划的一大推动力,但ISV名单中还没有提供成熟的SM3 / SM4测试来提供著名的测试软件。我们正在发送测试请求,以反映这些算法的优缺点。同时,我们可以看到该芯片在AES,哈希和SHA3基准测试中提供了强大的性能。
中国芯崛起?
从我们今天的测试中可以明显看出,兆芯仍然落后于处理器市场的领导者,这是工艺技术和架构落后的副作用。整个测试套件中,兆芯KX-U6780A饱受相对较慢的2.7 GHz时钟速度之苦,而且我们认为旗舰产品的额外300 MHz频率不会显着改变总体结果。
AMD和Intel拥有数十年研究和开发的优势,更不用说在x86指令集发展中的开拓性作用。这使得x86或其他新手很难建立有竞争力的产品。我们经常听到过KX-6000系列与Intel第七代Core i5系列的比较,但是显然,这些测试只有非常狭窄的选择范围,即使不是单一测试,也可以用作比较点。
可以肯定地说,英特尔还不必担心兆芯的有意义的竞争,AMD也是如此。甚至AMD带有Excavator v2内核的过时的Bristol Ridge芯片也足以抵御挑战者,我们甚至不必将Zen 2处理器带入测试池中就可以让AMD在性能上拥有领先优势。
但是,随着英特尔努力经济地批量生产其10nm节点,英特尔成为集成设备制造商(IDM)的历史优势已成为责任。现在,台积电(TSMC)成为处理器市场上的出色均衡器,因为几乎所有芯片设计人员都可以简单地采用其7nm节点,并具有与英特尔10nm竞争的领先工艺。如果它继续利用台湾代工厂的话,这对未来的兆芯芯片来说是个好兆头。但如果兆芯与中国晶圆厂中芯国际一起为其7nm KX-7000处理器配套,则情况变得更加模糊,但鉴于可轻松访问台积电的成熟节点,因此在短期内这似乎不太可能。但是,鉴于中国政府对完全自主研发的芯片的渴望,任何事情都是可能的。
兆芯计划在其下一代芯片中采用PCIe 4.0和DDR5接口,但是正如我们在整个测试中所观察到的那样,该公司必须将这些功能与其他有意义的进步结合起来,才能取得真正的进展。毫无疑问,更高的时钟速度,更低的功耗以及7nm节点密度的提高将带来改善,但是兆芯需要改善其微架构。
该公司已经对其先前的芯片对Centaur的Isaiah架构进行了改动,但是即使我们不知道更详细的细节,兆芯也可能需要一个干净的设计。在很大程度上独立于Via内部运作的Centaur,确实具有一种令人难以置信的新的CNS核心架构。兆芯可能会在其KX-7000系列中采用这种架构或衍生产品。
就目前而言,在全球市场上,与AMD和Intel相比,兆芯芯片的表现并不令人印象深刻,但是鉴于中国政府的首要愿望是摆脱西方对其经济的影响,这也许会有意义。中国庞大的计划是在2022年底前将其外国政府的软件,硬件和加密技术除掉,这是一个令人难以置信的雄心勃勃的目标,这意味着它将采纳和激励几乎所有本土逻辑,无论其表现如何。还有其他选择:华为正在为新一代台式PC主板采用ARM体系结构,但是x86指令集的普遍性很难忽略。
正如我们经常看到的那样,“便宜又好”几乎总是能赢得大部分市场。如果兆芯获得正确的价格,它应该能够在突然扩大的中国个人电脑市场中抢占很大一部分。
不过,这大多仅适用于政府部门,因此英特尔和AMD仍将为中国的日常消费者使用。至少现在是。我们可以肯定,大多数发烧友和专业人士都将继续使用Intel和AMD硬件,因为它们具有更高的性能和效率,但是兆芯的支持将确保其未来的体系结构更具竞争力。我们今天记录的一些低迷的性能也可能使人联想到AMD的新架构所面临的挑战,因此更广泛的采用可能会通过软件优化提高性能。
还记得AMD像凤凰一样从半导体市场的相对灰烬中崛起,成为价值和性能领导者的趋势吗?他们仅用了一个大胆的新架构,即可获得52%的IPC增益,加上足够好的14nm GlobalFoundries工艺,再加上英特尔在10nm节点上的延迟的运气,他们会打乱台式机和数据中心市场。
这就引出了一个问题:兆芯是否仅是一个微体系结构,就不会成为全球舞台上的有力竞争者,同时通过芯片计划使中国获得成功?只有时间会证明一切,但这一切都始于实现过程节点奇偶性。兆芯计划在2021年实现这一目标。