本文系统讲解从基本强化学习方法到高级技术(如 PPO、A3C、PlaNet 等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化...
在深度学习工程实践中,当训练大型模型或处理大规模数据集时,上述错误信息对许多开发者而言已不陌生。这是众所周知的
生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典 GAN 损失函数的理论基础,随后使用 PyTorch 实现...
在深度学习的背景下,NVIDIA 的 CUDA 与 AMD 的 ROCm 框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大...
神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域,传统神经网络因其依赖大规模标记数据...
指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额...
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言...
神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表...
yifuwang 在 [链接] 中实现了一个 triton_all_gather_matmul.py ,也就是可以把 AllGather 和 MatMul kernel fuse 起来变成一个 kernel...
博客来源:[链接] 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant...
博客来源:[链接] 这里做了个翻译。这篇 PyTorch 的 blog 简要介绍了 CUTLASS 中的 Ping-Pong GEMM kernel 设计,它是专门为 Hopper GPU...
超参数优化是深度学习模型开发过程中的一个核心技术难点。合适的超参数组合能够显著提升模型性能,但优化过程往往需要消耗大量计算资源...
在深度学习模型部署和优化领域,计算效率与资源消耗的平衡一直是一个核心挑战。PyTorch 团队针对这一问题推出了创新性的技术方案——在其...
博客来源:[链接] 。by IBM and Meta 。这里主要是汇总一下 FSDP2 和 FP8 训练相关的内容,目前的实践主要集中在 TorchTitan(DTensor,...
循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning fr...
深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中...
PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来,Arm 与合作伙伴通力协作,持续改进 PyTorch 的推理性能。本文将详细介绍如何利...
导语自 2015 年 TensorFlow 开源以来,伴随着深度学习的迅猛发展,通用深度学习框架经历了 10 年的高速发展,大浪淘沙,余者寥寥。曾几...
为了给 OpenRLHF 写一个 weight_update 接口,怜悯给我说,”你只需要学习 torch.dist。”我当时一听,“我怎么记得有个 torch 的接口是...
随着生成式 AI(genAI)模型在应用范围和模型规模方面的持续扩展,其训练和部署所需的计算资源及相关成本也呈现显著增长趋势,模型优化...