PyTorch 下最新的文章 - 极术社区 - 连接开发者与智能计算生态

PyTorch

PyTorch 是一个开源的 Python 机器学习库，基于 Torch，应用于人工智能领域，如自然语言处理。

关注标签

关注数

1

内容数

122

提问题写文章

标签主页标签问答标签文章

相关标签

标签文章

最新的 · 最热的

V · 5 天前

CUDA 重大更新：原生 Python 可直接编写高性能 GPU 程序

NVIDIA 在 2025 年 GTC 大会上宣布了一项具有里程碑意义的技术更新：CUDA 并行计算平台正式支持原生 Python 编程。这一突破性进展将消除...

0 阅读 742
V · 5月14日

PINN 应用案例：神经网络求解热扩散方程高质量近似解

偏微分方程(PDE)是描述物理现象的基础数学工具。在简化几何形状的理想条件下，某些 PDE 问题可获得精确解析解。然而对于具有复杂边界和...

0 阅读 626
V · 5月13日

PyTorch 量化感知训练技术：模型压缩与高精度边缘部署实践

在神经网络研究的前沿，我们正面临着模型精度与运行效率之间的权衡挑战。尽管架构优化、层融合和模型编译等技术已取得显著进展，但这些...

0 阅读 1.2k
V · 5月9日

PyTorchVideo实战：从零开始构建高效视频分类模型

视频理解作为机器学习的核心领域，为动作识别、视频摘要和监控等应用提供了技术基础。本教程将详细介绍如何利用PyTorchVideo和PyTorch L...

1 阅读 590
V · 5月8日

Perforated Backpropagation：神经网络优化的创新技术及PyTorch使用指南

近年来，深度学习在从大型语言模型(LLM)到机器人技术再到医疗人工智能的众多领域展现出了显著成效。随着研究资源的持续投入，这一领域通...

1 阅读 655
V · 4月22日

10 招立竿见影的 PyTorch 性能优化技巧，让模型训练速度翻倍

PyTorch 作为深度学习研究与工程领域的主流框架，拥有强大的性能潜力，但许多高级性能特性往往隐藏在文档深处，未被充分利用。本文基于...

0 阅读 533
V · 4月11日

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

本文系统讲解从基本强化学习方法到高级技术（如 PPO、A3C、PlaNet 等）的实现原理与编码过程，旨在通过理论结合代码的方式，构建对强化...

1 阅读 707
V · 4月10日

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

在深度学习工程实践中，当训练大型模型或处理大规模数据集时，上述错误信息对许多开发者而言已不陌生。这是众所周知的

1 阅读 738
V · 3月31日

9 个主流 GAN 损失函数的数学原理和 Pytorch 代码实现：从经典模型到现代变体

生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典 GAN 损失函数的理论基础，随后使用 PyTorch 实现...

3 阅读 913
V · 3月19日

融合 AMD 与 NVIDIA GPU 集群的 MLOps：异构计算环境中的分布式训练架构实践

在深度学习的背景下，NVIDIA 的 CUDA 与 AMD 的 ROCm 框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大...

1 阅读 986
V · 3月14日

PyTorch PINN实战：用深度学习求解微分方程

神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域，传统神经网络因其依赖大规模标记数据...

1 阅读 955
V · 2月24日

PyTorch Profiler性能优化示例：定位TorchMetrics收集瓶颈，提高GPU利用率

指标收集是每个机器学习项目不可或缺的组成部分，它使我们能够跟踪模型性能并监控训练进度。理想情况下，我们希望在不给训练过程带来额...

1 阅读 1k
V · 2月21日

近端策略优化(PPO)算法的理论基础与 PyTorch 代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度强化学习领域获得了广泛应用。特别是在大语言...

0 阅读 1.6k
V · 2月7日

PyTorch 生态系统中的连续深度学习：使用 Torchdyn 实现连续时间神经网络

神经常微分方程（Neural ODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表...

0 阅读 423
爱笑的小姐姐 · 1月26日

Fused AllGather_MatMul Triton 工程实现

yifuwang 在 [链接] 中实现了一个 triton_all_gather_matmul.py ，也就是可以把 AllGather 和 MatMul kernel fuse 起来变成一个 kernel...

0 阅读 886
爱笑的小姐姐 · 1月20日

使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介

博客来源：[链接] 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant...

5 阅读 787
爱笑的小姐姐 · 1月16日

PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介

博客来源：[链接] 这里做了个翻译。这篇 PyTorch 的 blog 简要介绍了 CUTLASS 中的 Ping-Pong GEMM kernel 设计，它是专门为 Hopper GPU...

0 阅读 892
V · 1月13日

TorchOptimizer：基于贝叶斯优化的 PyTorch Lightning 超参数调优框架

超参数优化是深度学习模型开发过程中的一个核心技术难点。合适的超参数组合能够显著提升模型性能，但优化过程往往需要消耗大量计算资源...

0 阅读 449
V · 1月9日

PyTorch 团队为 TorchAO 引入 1-8 比特量化，提升 Arm 平台性能

在深度学习模型部署和优化领域，计算效率与资源消耗的平衡一直是一个核心挑战。PyTorch 团队针对这一问题推出了创新性的技术方案——在其...

0 阅读 444
爱笑的小姐姐 · 1月9日

PyTorch 原生 FP8 训练进展

博客来源：[链接] 。by IBM and Meta 。这里主要是汇总一下 FSDP2 和 FP8 训练相关的内容，目前的实践主要集中在 TorchTitan（DTensor，...

0 阅读 792

上一页
1
2
3
4
5
下一页

本月贡献榜

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息