极术小姐姐 · 4 天前

基于 Arm 架构的珠峰芯片加速极致视频体验

image.png

视频编解码技术作为支撑超高清视频及泛音视频产业发展的基石,其重要性愈发凸显。H.264/AVC 是目前广泛使用的编解码标准,能够在较低的数据速率下提供高质量的视频流,是在线视频和移动端视频的理想选择;H.265/HEVC 进一步提高了压缩效率,在传输高清视频流和 4K 视频时所需的带宽大约是 H.264 的一半。然而,新一代编解码技术在节省带宽的同时,也对算力提出了更高的要求。

尽管专用视频加速卡(如 ASICs)和 GPU 在特定任务上展现出卓越性能,但通用服务器 CPU 因其出色的灵活性、广泛的适用性以及更高的性价比,正在成为视频转码场景中的主流选择。随着多核 CPU 架构和视频编解码技术的不断进步,可以预见 CPU 在视频转码领域的应用将更加广泛。

在本文中,我们将探讨基于 Armv9 架构的中兴微电子“珠峰 1.0”芯片在 x264/x265 视频转码场景下,所展现的可扩展算力和稳定核心,并通过与主流 x86 架构产品相比,展示珠峰芯片所具备的性能和能效优势。

x264/x265 基准测试

“珠峰 1.0”是中兴微电子发布的首颗领域定制融合处理器,搭载 128 个核心,主频最高达到 3.1GHz。该芯片可提供指令集加速,比如 SVE/SVE2 等向量计算技术等,并在视频转码等高算力场景中能够让工作负载以可预测的方式稳定运行。与此同时,依托于 Arm 成熟坚实的软件生态和主流视频编解码库中基于最新 Arm 架构指令的优化,珠峰芯片可以为视频转码和其他云工作负载提供卓越的性能和能效收益。

x264 和 x265 作为主流的开源编解码器实现在业界得到了广泛的认可和应用,我们将通过实测 x264/x265 转码场景下的编码速度(每秒帧数,FPS)来对比珠峰芯片和主流 x86 产品(英特尔 IceLake[1]、英特尔 Sapphire Rapids (SPR)[2] 和 AMD Milan[3])在多线程和整个 socket 配置下的性能和吞吐。

image.png
表 1:珠峰芯片和主流 x86 架构产品平台配置
(配置: 内核: 6.0; GCC 编译器: 12.2;x86 开启 turbo,1 线程 = 1 逻辑 CPU)

测试视频:

https://ultravideo.fi/video/B...

测试命令脚本:

x264:

for cpu in ${cpulist[@]};do

    cmd = numactl -C $cpu ${x264_DIR}/x264 -o   output_${cpu}.mkv 

${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m   --preset medium --

frames 600 --threads 1 &

done
x265:

for cpu in ${cpulist[@]};do

    cmd = numactl -C $cpu ${x265_DIR}/x265 -o   output_${cpu}.mkv    

${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m   --preset medium --

frames 600 --no-wpp --pools ',' --frame-threads 1 &

done

八线程转码测试

image.png
图 1:单线程下 x264 的平均转码速率对比

image.png
图 2:单线程下 x265 的平均转码速率对比

我们可以看到,在八线程的配置下,珠峰芯片在 x264/x265 转码场景中相比 x86 架构芯片平均每线程分别有 1.34 倍和 1.17 倍的性能优势。

单 socket 转码测试

image.png
图 3:单 socket 下 x264 转码速率对比

image.png
图 4:单 socket 下 x265 转码速率对比

在单 socket 的配置下,珠峰芯片在 x264/x265 转码场景中相比 x86 架构芯片单 socket 分别有 2.96 倍和 2.54 倍的性能优势。

转码能效比

除了拥有最佳的转码性能外,基于 Armv9 架构的珠峰芯片非常注重性能和功耗的平衡,卓越的能效可以极大地减少视频转码中产生的碳足迹。下面是珠峰芯片和主流 x86 架构产品 (IceLake、SPR 和 Milan)热设计功耗 (TDP) 的比较:

image.png
图 5:热设计功耗 (TDP) 对比

结论

在 x264/x265 视频转码的场景下,我们可以清楚地看到基于 Armv9 架构的中兴微电子珠峰芯片具备强劲的可扩展算力和稳定核心,测试结果显示,与主流 x86 架构产品选择相比(如英特尔至强第四代 Sapphire Rapids),该芯片提供了卓越的性能和能效,在运行 x264 时性能优势高达 2.08 倍,而在运行 x265 时性能优势高达 1.79 倍;此外,能效提升高达 1.35 倍。

参考资料:

[1]  https://www.intel.com/content...
[2] https://www.intel.com/content...
[3] https://www.amd.com/zh-cn/pro...

* 本文为 Arm 原创文章,转载请留言联系获得授权并注明出处。

END

作者:安谋科技 (Arm China) 高级软件产品经理 杨喜乐
文章来源:Arm社区

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区Arm技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
23554
内容数
1003
Arm相关的技术博客,提供最新Arm技术干货,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息