TL;DR
为Image Restoration 任务提供了一种Baseline 的 Transformer Based 方法
Method
- 主要由三部分构成:shallow feature extraction / deep feature extraction and highquality (HQ) image reconstruction
- shallown feature extraction 由 3X3 的conv 构成
- deep feature feature由若干RSTB模块构成,RSTB模块其实就是若干组Swin Transformer Blocks 和 Conv。外围有一个大的Residue
- 最后一个模块则是把高频和低频feature整合到一块
- Swin Transformer Layer:给定 H x W x C 的输入,把它reshape 成若干 M x M 的block。然后对每一个window 计算self-attention, 其中 query, key, value等三个vector的计算方式如下
- MLP / MSA之前有LayerNorm层