NVIDIA 在 2025 年 GTC 大会上宣布了一项具有里程碑意义的技术更新:CUDA 并行计算平台正式支持原生 Python 编程。这一突破性进展将消除...
偏微分方程(PDE)是描述物理现象的基础数学工具。在简化几何形状的理想条件下,某些 PDE 问题可获得精确解析解。然而对于具有复杂边界和...
在神经网络研究的前沿,我们正面临着模型精度与运行效率之间的权衡挑战。尽管架构优化、层融合和模型编译等技术已取得显著进展,但这些...
视频理解作为机器学习的核心领域,为动作识别、视频摘要和监控等应用提供了技术基础。本教程将详细介绍如何利用PyTorchVideo和PyTorch L...
近年来,深度学习在从大型语言模型(LLM)到机器人技术再到医疗人工智能的众多领域展现出了显著成效。随着研究资源的持续投入,这一领域通...
PyTorch 作为深度学习研究与工程领域的主流框架,拥有强大的性能潜力,但许多高级性能特性往往隐藏在文档深处,未被充分利用。本文基于...
本文系统讲解从基本强化学习方法到高级技术(如 PPO、A3C、PlaNet 等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化...
在深度学习工程实践中,当训练大型模型或处理大规模数据集时,上述错误信息对许多开发者而言已不陌生。这是众所周知的
生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典 GAN 损失函数的理论基础,随后使用 PyTorch 实现...
在深度学习的背景下,NVIDIA 的 CUDA 与 AMD 的 ROCm 框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大...
神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域,传统神经网络因其依赖大规模标记数据...
指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额...
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言...
神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表...
yifuwang 在 [链接] 中实现了一个 triton_all_gather_matmul.py ,也就是可以把 AllGather 和 MatMul kernel fuse 起来变成一个 kernel...
博客来源:[链接] 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant...
博客来源:[链接] 这里做了个翻译。这篇 PyTorch 的 blog 简要介绍了 CUTLASS 中的 Ping-Pong GEMM kernel 设计,它是专门为 Hopper GPU...
超参数优化是深度学习模型开发过程中的一个核心技术难点。合适的超参数组合能够显著提升模型性能,但优化过程往往需要消耗大量计算资源...
在深度学习模型部署和优化领域,计算效率与资源消耗的平衡一直是一个核心挑战。PyTorch 团队针对这一问题推出了创新性的技术方案——在其...
博客来源:[链接] 。by IBM and Meta 。这里主要是汇总一下 FSDP2 和 FP8 训练相关的内容,目前的实践主要集中在 TorchTitan(DTensor,...