%load_ext autoreload
%autoreload 2

import numpy as np
import matplotlib.pyplot as plt
from typing import Callable, List
from itertools import product
from tqdm.notebook import tqdm
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import HTML
import seaborn as sns
from IPython.display import Video
import os
import pandas as pd
import torch
import torchvision
import torchvision.transforms as transforms
import torch.nn as nn
from torch.utils.data import Dataset
from torch import Tensor
from abc import ABC, abstractmethod
from torch.nn.functional import relu
from torch.utils.data.dataloader import DataLoader
from tqdm.notebook import tqdm
import scipy.stats as st
from sde import VPSDE, ItoSDE
from train import train_diffusion_model
from sampling import run_backwards
import torch.nn.functional as F
from torch.optim.lr_scheduler import LRScheduler

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
sde = VPSDE(T_max=1,beta_min=0.01, beta_max=10.0)

image_size = 28
classes_by_index  = np.arange(0,10).astype('str')

transform = transforms.Compose([transforms.Resize(image_size),\
                                transforms.ToTensor(),\
                                transforms.Normalize([0.5],[0.5])]) #Normalize to -1,1
trainset = torchvision.datasets.MNIST(root='./data', train=True,
                                    download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False,
                                    download=True, transform=transform)

batch_size = 256
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size,
                                          shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size,
                                          shuffle=True, num_workers=2)

class MNISTClassifier(nn.Module):
    """Code from: https://nextjournal.com/gkoehler/pytorch-mnist"""
    def __init__(self):
        super(MNISTClassifier, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.conv2_drop = nn.Dropout2d()
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x, t):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
        x = x.view(-1, 320)
        x = F.relu(x + t[:,None])
        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training)
        x = self.fc2(x)
        return F.log_softmax(x)

def train_diffused_classifier(model, sde: ItoSDE, dataloader: DataLoader, optimizer, device, n_epochs: int, print_every: int, scheduler: LRScheduler = None):
    
    model.train()
    model = model.to(DEVICE)
    running_loss_list = []
    lr_list = []
    
    for epoch in range(n_epochs):
        print(f"Epoch: {epoch}")
        running_loss = 0.0
        for idx, (x_inp,target) in tqdm(enumerate(dataloader), total=len(dataloader)):
            
            #Zero gradients:
            optimizer.zero_grad()
            
            #Run forward samples:
            X_t,noise,score,time = sde.run_forward_random_times(x_inp)

            #Send to device:
            X_t = X_t.to(DEVICE)
            noise = noise.to(DEVICE)
            time = time.to(DEVICE)
            
            #Predict score:
            model_pred = model(X_t,time)

            #ONLY THIS LINE CHANGED TO BEFORE: we train the model to minimize the negative log-likelihood:
            loss = F.nll_loss(model_pred, target.to(DEVICE))

            #Optimize:
            loss.backward()
            optimizer.step()

            if scheduler is not None:
                scheduler.step()
                
            # print statistics
            running_loss += loss.detach().item()
            
            if (idx+1) % print_every == 0:
                avg_loss = running_loss/print_every
                running_loss_list.append(avg_loss)
                running_loss = 0.0
                if scheduler is not None:
                    print(f"Loss: {avg_loss:.4f} | {scheduler.get_lr()}")
                    lr_list.append(scheduler.get_lr())
                else:
                    print(f"Loss: {avg_loss:.4f}")

                
    return model,running_loss_list

LEARNING_RATE = 1e-3 #2e-5
WEIGHT_DECAY = 0.0
N_EPOCHS = 500
TRAIN_SCORE = False
RETRAIN = False
classifier = MNISTClassifier()

if RETRAIN:
    optimizer = torch.optim.AdamW(classifier.parameters(),lr=LEARNING_RATE, weight_decay=WEIGHT_DECAY,maximize=False)
    scheduler=torch.optim.lr_scheduler.OneCycleLR(optimizer,LEARNING_RATE,total_steps=N_EPOCHS*len(trainloader),pct_start=0.25,anneal_strategy='cos')
    classifier,running_loss_list = train_diffused_classifier(classifier, sde, trainloader, optimizer=optimizer, scheduler=scheduler, device=DEVICE, n_epochs=N_EPOCHS, print_every=100)
    torch.save(classifier.state_dict(),"20231127_mnist_diffusion_classifier.ckpt")
    
else:
    classifier_state_dict = torch.load("20231127_mnist_diffusion_classifier.ckpt")
    classifier.load_state_dict(classifier_state_dict)
    classifier = classifier.to(DEVICE)

n_grid_points = 16
time_vec = torch.linspace(0,1,n_grid_points)**2
X_0, Y = trainset.__getitem__(23410)
X_0 = torch.stack([X_0.unsqueeze(0).squeeze()]*n_grid_points)
X_t, noise, score = sde.run_forward(X_0,time_vec)
X_t = X_t.unsqueeze(1)

results = np.exp(classifier(X_t.to(DEVICE),time_vec.to(DEVICE)).cpu().detach().numpy())
fig, axs = plt.subplots(2, len(results),figsize=(3*len(results),6))
for idx in range(len(results)):
    axs[0,idx].set_title(f"Prediction distribution \n time = {time_vec[idx]:.3f}")
    axs[0, idx].bar(x=classes_by_index, height=results[idx])
    axs[1, idx].set_title(f"Input image at t={time_vec[idx]:.2f}")
    axs[1, idx].imshow(X_t[idx].squeeze(), cmap='grey')

/tmp/ipykernel_401506/4223319117.py:19: UserWarning: Implicit dimension choice for log_softmax has been deprecated. Change the call to include dim=X as an argument.
  return F.log_softmax(x)

def get_classifier_gradient(x: torch.Tensor, t: torch.Tensor, target: int, scale_factor: float = 8.0):
    classifier.zero_grad()
    x = torch.nn.Parameter(x.to(DEVICE),requires_grad=True)
    t = t.to(DEVICE)
    output = classifier(x,t)
    output[:,target].sum().backward()
    return scale_factor*x.grad.detach()

X_0, Y = trainset.__getitem__(23410)
X_0 = torch.stack([X_0.unsqueeze(0).squeeze()]*n_grid_points)
X_t, noise, score = sde.run_forward(X_0,time_vec)
X_t = X_t.unsqueeze(1)

fig, axs = plt.subplots(2,16,figsize=(16*4,4))
for idx in range(16):
    gradient = get_classifier_gradient(X_t[idx].unsqueeze(0), torch.tensor([0.05]), Y)
    axs[0,idx].imshow(gradient.detach().cpu().numpy().squeeze())
    axs[1,idx].imshow(X_t[idx].squeeze())

/tmp/ipykernel_401506/4223319117.py:19: UserWarning: Implicit dimension choice for log_softmax has been deprecated. Change the call to include dim=X as an argument.
  return F.log_softmax(x)

if cond_grad_func is not None:
            cond_grad = cond_grad_func(x.to(device), time_vec.to(device), target).to(change.device)
            cond_grad = (step_size*ItoSDE._mult_first_dim(g_squared,cond_grad))
            change += cond_grad
            
        next_step = x + change

from unet import Unet

def load_mnist_model():
    model = Unet(base_dim=28, in_channels=1, out_channels=1, time_embedding_dim=256, timesteps=100, dim_mults=[2, 4], temp=100.0)
    model = torch.compile(model)
    model_state_dict = torch.load("20231120_mnist_diffusion_denoiser.ckpt")
    model.load_state_dict(model_state_dict)
    model = model.to(DEVICE)
    return model

model = load_mnist_model()

# torch._dynamo.config.verbose=True
# torch._dynamo.config.suppress_errors = True

single_target_shape = [8,1,image_size,image_size]
output_list = []
for target in classes_by_index:
    x_start = torch.clip(torch.randn(size=single_target_shape),-1.0,1.0)
    output,time_grid = run_backwards(model,sde,x_start=x_start,n_steps=1000,device=DEVICE,train_score=TRAIN_SCORE, clip_min=-10.0, clip_max=10.0, cond_grad_func=get_classifier_gradient, target=int(target))
    output_list.append(output)
output_agg = torch.stack([output.transpose(1,0) for output in output_list],dim=1)

0it [00:00, ?it/s]/tmp/ipykernel_401506/4223319117.py:19: UserWarning: Implicit dimension choice for log_softmax has been deprecated. Change the call to include dim=X as an argument.
  return F.log_softmax(x)
1000it [00:20, 47.87it/s]
1000it [00:09, 107.63it/s]
1000it [00:09, 107.80it/s]
1000it [00:09, 106.99it/s]
1000it [00:09, 107.46it/s]
1000it [00:09, 106.98it/s]
1000it [00:09, 107.48it/s]
1000it [00:09, 108.97it/s]
1000it [00:09, 108.89it/s]
1000it [00:09, 105.21it/s]

import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.axes_grid1 import ImageGrid

n_time_steps = output_agg.shape[0]
n_labels = output_agg.shape[1]
images_per_label = output_agg.shape[2]
time_idx = -1
#fig, axs = plt.subplots(n_labels, images_per_label)
grid_idx = 0
fig = plt.figure(figsize=(12., 12.))
grid = ImageGrid(fig, 111,  # similar to subplot(111)
                 nrows_ncols=(n_labels, images_per_label),  # creates 2x2 grid of axes
                 axes_pad=0.01,  # pad between axes in inch.
                 )
for label in range(n_labels):
    for image_idx in range(images_per_label):
        grid[grid_idx].imshow(output_agg[time_idx,label,image_idx].squeeze(),cmap='grey')
        grid[grid_idx].set_xticks([])
        grid[grid_idx].set_yticks([])
        grid[grid_idx].set_ylabel(f"{label}",fontsize=16)
        grid_idx += 1

from PIL import Image
def make_gif(output_agg):

    n_images = 20
    n_time_steps = output_agg.shape[0]
    time_jumps = n_time_steps//n_images
    time_idx_list = [i * time_jumps for i in range(n_images)] + [n_time_steps-1]
    image_paths = []
    
    n_labels = output_agg.shape[1]
    images_per_label = output_agg.shape[2]
    
    for time_idx in time_idx_list:
        #fig, axs = plt.subplots(n_labels, images_per_label)
        grid_idx = 0
        fig = plt.figure(figsize=(12., 12.))
        grid = ImageGrid(fig, 111,  # similar to subplot(111)
                         nrows_ncols=(n_labels, images_per_label),  # creates 2x2 grid of axes
                         axes_pad=0.01,  # pad between axes in inch.
                         )
        for label in range(n_labels):
            for image_idx in range(images_per_label):
                grid[grid_idx].imshow(output_agg[time_idx,label,image_idx].squeeze().clip(-1,1),cmap='grey')
                grid[grid_idx].set_xticks([])
                grid[grid_idx].set_yticks([])
                grid[grid_idx].set_ylabel(f"{label}",fontsize=16)
                grid_idx += 1
                
        filepath = f"mnist_cond_gen_idx={time_idx}.png"
        plt.savefig(filepath)
        image_paths.append(filepath)
    
    frames = [Image.open(image) for image in image_paths+[image_paths[-1]]*min(len(image_paths),10)]
    frame_one = frames[0]
    frame_one.save("MNIST_conditional_diffusion.gif", format="GIF", append_images=frames,
               save_all=True, duration=100, loop=0)
    for image_path in image_paths:
       os.remove(image_path)

from IPython.utils import io

with io.capture_output() as captured:
    make_gif(output_agg)

from IPython.display import HTML
HTML('<img src="/assets/animation/MNIST_conditional_diffusion.gif"">')

Conditional Image Generation with Classifier Guidance¶

Define SDE¶

Load MNIST data¶

Train an MNIST classifier on noised data¶

Compute classifier gradient¶

Conditional Sampling¶

Visualize results¶