TL;DR
通过Repeated Refinement 来实现SR。SR3 采用的是 denoising diffusion probabilistic models来进行图片生成,通过随机迭代降噪点过程来进行超分。从纯高斯噪声模型起步,用不同降噪力度的降噪模型来经过不断迭代Noisy 图像,从而生成图像
Method
- 生成范式
- conditional DDPM经过T个步骤生成最终图像,首先从一个pure gaussian images开发,经过T个步骤连续的迭代。每个迭代都需要学习conditional transition distributions. 前向过程:通过固定的马尔可夫链将高斯噪声不断地添加至信号当中。 反向过程:是主要需要学习的部分,即从噪声中逆转得到信号的过程。使用神经去噪模型fθ学习反向链,该模型将源图像和噪声目标图像作为输入,并估计噪声。
- 训练
- 输入:低分辨率图像; 带噪声图像,尺寸和高分辨率图像一致。
- 损失函数:使得模型输出的噪声和随机的高斯噪声分布尽可能一致。
- Inference 阶段:输入为低分辨率图像x以及 yt高斯噪声,输出为高分辨率图像。输入通过公式重复迭代T次得到SR图像。可以理解为迭代的从图像中去除噪声,当迭代的次数足够多,就能将噪声都去除,得到一个效果较好的SR结果。
- Model Arch:
- UNet 架构,用迭代的方式从输出去除各level的噪声。将低分辨率图像upsample到高分辨率,再和噪声图concat,作为网络的输入。