小编亲测了5090和4090运行各种模型的性能对比,必须买5090吗?
2025年1月7日,英伟达在CES展会,推出了新一代基于Blackwell架构的GPU RTX 5090。最近很多小伙伴都在问小编,是不是必须要买5090卡了?今天,小编为大家分析这两款卡,在不同应用场景中的差异。
为了客观地对比,小编做了对比测试。5090卡发布后,已经有很多厂商迅速行动,开始售卖5090卡资源。小编发现天罡智算平台(https://tiangangaitp.com/gpu-...)已经提供了5090卡,小编在天罡智算租用了5090卡和4090卡,对比测试结果如下:
性能参数对比
对比项 RTX 5090 RTX 4090
NVIDIA架构 Blackwell Ada Lovelace
显存 32GB GDDR7 24GB GDDR6X
显存位宽 512位 384位
显存带宽 1.8 TB/s 1.01 TB/s
CUDA核心数 21760 16384
Tensor核心数 680 512
CUDA核心FP16 104.8 TFlops 82.58 TFlops
Tensor核心FP16 419 TFlops 330.3 TFlops
Tensor核心FP4 3352 TOPS 不支持
应用场景 测试项目 RTX 5090 RTX 4090 性能提升 关键原因
文本生成(大语言模型) Llama 3.1-8B(128 token生成) 195 token/s 123 token/s +58% 架构优化+显存带宽(1.8TB/s)
Llama 3.1-32B模型(int4量化) 50 token/s 22.3 token/s +124% FP4 Tensor Core支持
图像生成(AIGC) SDXL FP16(单图生成) 7秒 10秒 +43% CUDA核心数提升(21,760 vs 16,384)
Flux模型(FP4量化) 5秒 10秒 +100% 专用FP4计算单元
大模型推理服务 LLaMA3-70B(单卡QPS) 42 36 +16.7% 显存容量优化(32GB GDDR7)
AI训练 70B模型预训练(1E tokens) 70小时(4卡) 100小时(4卡) -30%耗时 稀疏训练加速
DistilBERT微调 254秒 127秒 -50% ↓ 驱动未优化(CUDA 12.4适配不足)
T5-Large文本摘要 44.7秒 38.2秒 -14.7% ↓ 散热触发降频
游戏渲染 《赛博朋克2077》(4K光追+DLSS) 238 FPS 109 FPS +118% DLSS 4多帧生成技术
3D创作 D5渲染器(高负载场景) 160 FPS 87 FPS +84% RT Core升级(三角形处理能力×100倍)
功耗与兼容性 峰值功耗 575W 450W +125W 双风扇散热设计优化
在天罡智算平台租用5090和4090的流程
在天罡智算的官网(https://tiangangaitp.com/gpu-...)完成注册和登录后,点击菜单“弹性GPU”,在弹性GPU的页面,就可以看到5090卡和4090卡。
点击5090或4090卡的图片,在页面的右侧,会显示5090或4090卡的详情,当前支持按照卡时计费,根据实际使用量,先使用后付费。并且支持潮汐定价,每天夜间有10个小时,能够享受半价优惠。根据您的算力需求量,一个容器支持挂载1、2、4、8个5090或4090卡。点击选择镜像的下拉菜单,可以选择预装的操作系统和开发框架。然后点击申请资源。
综合来看,5090在处理大型数据集、AI训练、复杂渲染任务时具有更为出色的表现,在性能上确实优于4090。对于那些追求极致性能、需要进行高负载计算或者专业创作的人群,5090无疑是一个更好的选择。
然而,4090依然是一款非常强大的显卡,对于绝大部分玩家和专业用户来说,它的性能已经足够满足需求。
因此,您需要根据自己业务的实际需求,来选择合适自己的GPU卡。