博客来源:[链接] 这里做了个翻译。这篇 PyTorch 的 blog 简要介绍了 CUTLASS 中的 Ping-Pong GEMM kernel 设计,它是专门为 Hopper GPU...
超参数优化是深度学习模型开发过程中的一个核心技术难点。合适的超参数组合能够显著提升模型性能,但优化过程往往需要消耗大量计算资源...
在深度学习模型部署和优化领域,计算效率与资源消耗的平衡一直是一个核心挑战。PyTorch 团队针对这一问题推出了创新性的技术方案——在其...
博客来源:[链接] 。by IBM and Meta 。这里主要是汇总一下 FSDP2 和 FP8 训练相关的内容,目前的实践主要集中在 TorchTitan(DTensor,...
循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning fr...