V · 2月7日

PyTorch 生态系统中的连续深度学习:使用 Torchdyn 实现连续时间神经网络

神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同,Neural ODEs 将变换过程视为深度(或时间)的连续函数。这种方法为机器学习开创了新的研究方向,尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于 Torchdyn(一个专门用于连续深度学习和平衡模型的 PyTorch 扩展库)介绍 Neural ODE 的实现与训练方法。

Torchdyn 概述

Torchdyn 是基于 PyTorch 构建的专业库,专注于连续深度学习和隐式神经网络模型(如 Neural ODEs)的开发。该库具有以下核心特性:

  • 支持深度不变性和深度可变性的 ODE 模型
  • 提供多种数值求解算法(如 Runge-Kutta 法,Dormand-Prince 法)
  • 与 PyTorch Lightning 框架的无缝集成,便于训练流程管理

本教程将以经典的 moons 数据集为例,展示 Neural ODEs 在分类问题中的应用。

image.png

数据集构建

首先,我们使用 Torchdyn 内置的数据集生成工具创建实验数据:

 from torchdyn.datasets import ToyDataset
 import matplotlib.pyplot as plt

 ## 生成示例数据
 d = ToyDataset()
 X, yn = d.generate(n_samples=512, noise=1e-1, dataset_type='moons')
 ## 可视化数据集
 colors = ['orange', 'blue']
 fig, ax = plt.subplots(figsize=(3, 3))
 for i in range(len(X)):
     ax.scatter(X[i, 0], X[i, 1], s=1, color=colors[yn[i].int()])
 plt.show()

数据预处理

将生成的数据转换为 PyTorch 张量格式,并构建训练数据加载器。Torchdyn 支持 CPU 和 GPU 计算,可根据硬件环境灵活选择:

 import torch
 import torch.utils.data as data

 device = torch.device("cpu")  ## 如果使用GPU则改为'cuda'
 X_train = torch.Tensor(X).to(device)
 y_train = torch.LongTensor(yn.long()).to(device)
 train = data.TensorDataset(X_train, y_train)
 trainloader = data.DataLoader(train, batch_size=len(X), shuffle=True)

Neural ODE 模型构建

Neural ODEs 的核心组件是向量场(vector field),它通过神经网络定义了数据在连续深度域中的演化规律。以下代码展示了向量场的基本实现:

 import torch.nn as nn

 ## 定义向量场f
 f = nn.Sequential(
     nn.Linear(2, 16),
     nn.Tanh(),
     nn.Linear(16, 2)
 )

接下来,我们使用 Torchdyn 的

NeuralODE

类定义 Neural ODE 模型。这个类接收向量场和求解器设置作为输入。

 from torchdyn.core import NeuralODE

 t_span = torch.linspace(0, 1, 5)  ## 时间跨度
 model = NeuralODE(f, sensitivity='adjoint', solver='dopri5').to(device)

基于 PyTorch Lightning 的模型训练

Torchdyn 与 PyTorch Lightning 的集成简化了训练流程。这里我们定义一个专用的

Learner

类来管理训练过程:

 import pytorch_lightning as pl

 class Learner(pl.LightningModule):
     def __init__(self, t_span: torch.Tensor, model: nn.Module):
         super().__init__()
         self.model, self.t_span = model, t_span
     def forward(self, x):
         return self.model(x)
     def training_step(self, batch, batch_idx):
         x, y = batch
         t_eval, y_hat = self.model(x, self.t_span)
         y_hat = y_hat[-1]  ## 选择轨迹的最后一个点
         loss = nn.CrossEntropyLoss()(y_hat, y)
         return {'loss': loss}
     def configure_optimizers(self):
         return torch.optim.Adam(self.model.parameters(), lr=0.01)
     def train_dataloader(self):
         return trainloader

最后训练模型:

 learn = Learner(t_span, model)
 trainer = pl.Trainer(max_epochs=200)
 trainer.fit(learn)

实验结果可视化

深度域轨迹分析

训练完成后,我们可以观察数据样本在深度域(即 ODE 的时间维度)中的演化轨迹:

 t_eval, trajectory = model(X_train, t_span)
 trajectory = trajectory.detach().cpu()

 fig, (ax0, ax1) = plt.subplots(1, 2, figsize=(10, 2))
 for i in range(500):
     ax0.plot(t_span, trajectory[:, i, 0], alpha=0.1, color=colors[int(yn[i])])
     ax1.plot(t_span, trajectory[:, i, 1], alpha=0.1, color=colors[int(yn[i])])
 ax0.set_title("维度 0")
 ax1.set_title("维度 1")
 plt.show()

向量场可视化

通过可视化学习得到的向量场,我们可以直观理解模型的动力学特性:

 x = torch.linspace(trajectory[:, :, 0].min(), trajectory[:, :, 0].max(), 50)
 y = torch.linspace(trajectory[:, :, 1].min(), trajectory[:, :, 1].max(), 50)
 X, Y = torch.meshgrid(x, y)
 z = torch.cat([X.reshape(-1, 1), Y.reshape(-1, 1)], 1)
 f_eval = model.vf(0, z.to(device)).cpu().detach()

 fx, fy = f_eval[:, 0], f_eval[:, 1]
 fx, fy = fx.reshape(50, 50), fy.reshape(50, 50)
 fig, ax = plt.subplots(figsize=(4, 4))
 ax.streamplot(X.numpy(), Y.numpy(), fx.numpy(), fy.numpy(), color='black')
 plt.show()

Torchdyn 进阶特性

Torchdyn 框架的功能远不限于基础的 Neural ODEs 实现。它提供了丰富的高级特性,包括:

  • 高精度数值求解器
  • 平衡模型支持
  • 自定义微分方程系统

无论是物理模型的数值模拟,还是连续深度学习模型的开发,Torchdyn 都提供了完整的工具链支持。

https://avoid.overfit.cn/post...

推荐阅读
关注数
4220
内容数
972
SegmentFault 思否旗下人工智能领域产业媒体,专注技术与产业,一起探索人工智能。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息