Details or Artifacts A Locally Discriminative Learning Approach to

Realistic Image Super-Resolution

TL;DR

GAN-based 的方法在生成details的同时也会引入artifacts。作者发现在artifacts area的 residue variance 和 visual-friendly 的区域有显著的不同,设计上利用生成的artifacts map 来对训练过程进行正则。

Untitled

Method

GAN-SR induced visual artifacts

Untitled

  • Reconstruct loss 使得结果趋于blurred average, Adv loss 会产生更多细节。由于从一个blur image 开始,SR存在多组解。GAN loss 会把结果引入多个方向。

Untitled

  • 对于type B 的texture,由于在小区域内的分布是相对随机的,因此很难看出差别
  • 对于type C 的texture,包含 regular & sharp transitions, 在降质后这些pattern 在LR patch 中就消失了。采用原先的GAN方法,它在训练当中的variation 是相当高的

Untitled

Discriminating artifacts from realistic details

Untitled

  • 生成一张artifacts map, 它的通道数为1. 首先将SR的结果和GT做差,提取出high frequency的部分
  • type B / C 的 Residue 图赏可以看出,他们的差异很大。type B 的Residue 分布依然比较随机,本文采用如下方式计算Residue的方差。经验上把这个窗口的大小设为7.

Untitled

  • 为了使得训练过程更加稳定,用指数对方差进行scale 上的调整
  • 用moving average方法来使的训练过程更稳定。该方法有两个输出,其中用EMA方法输出的结果更稳定,用原SR结果生成的细节则更多。当R1 > R2时,则用Refinment map 对结果进行惩罚。

Untitled

Loss

Untitled

Experiment

Untitled

ClassSR A General Framework to Accelerate Super-Resolution Networks by Data Characteristic

ClassSR: A General Framework to Accelerate Super-Resolution Networks by Data Characteristic

TL;DR

核心加速方案是:不同的图像区域进行恢复的难度不同,可以用不同capacity的网络结构来处理。提出一种新的pipeline,ClassSR,即先将图像划分为不同大小的sub images,再根据restoration的难度做分类,再做SR。

Untitled

Method

  • 作者首先进行了一组观察,问了获取32X32 LR图像的统计特性,先将sub image 过一个网络(MSRResNet), 再根据各自的PSNR值做一个排序。如图所示,分为三档难度,simple, medium, hard。 使用3种的网络来处理不同种类的sub-images, 3种网络的区别主要在于first / last conv layer的通道数量不一致。分别为16, 36 , 56.

Untitled

  • Class Module 通过low-level feature来分辨sub image 是否容易恢复。结构上 5 conv + 1 avg pooling + 1 fc
  • SR-Module: 包含多个独立的分支,它的结构可以是任何想被加速的对象。本文为了简化,仅用通道数量来表达网络的复杂程度。

Untitled

  • Classification Method: 在训练阶段,input sub image会经过所有的SR分支,从而保证Class Module 能够接受从不同SR分支返回到提督。最终生成的结果如下:

Untitled

  • Loss:Class loss, 不同难度分类之间的置信度。Average Loss 是为了避免网络总是选择最复杂的branch,这样 Class Module 就会失效。

Untitled

Untitled

  • 训练总共分为三个阶段:pretrain SR-Module; Fix SR训练分类分支。 最后同时finetune两个部分。

Experiment

Untitled

  • 图像越大,加速比越大。到8K时加速比接近50%

Ablation Study

  • 如果没有Class Loss,则难以收敛。原因是会随机选择三个分支中的一个,导致训练不稳定。

Untitled

  • Average Loss 的引入可以带来Flops的下降,能够在两者之间做好权衡。

Untitled

  • 采用减少channel数量来减少flops,不减少middle层数量的原因是,这部分计算量占比很小
  • 在NR上不太省算力,原因是没有足够多的simple sub images

Untitled

RepVGG Making VGG-style ConvNets Great Again

TL;DR

本文提出了一个结构简单但功能强大的卷积神经网络架构,该结构在推理时候具有类似于VGG的backbone,仅由3 x 3 conv和ReLU堆叠组成。但在训练时,它却有着多分支的拓扑结构,它通过重参数化技术实现了训练和推理方面的解耦,因此该模型被称作Rep-VGG. RepVGG 在Image Net 上的top-1 准确率超过了80%,在NVIDIA 1080Ti 上推理速度更快,远快于ResNet-50 / 100 。与新模型相比,也展现了比较好的速度 / 准确率的trade-off

Untitled

Untitled

上图展示的是训练和测试如何实现解耦,中间部分为训练中网络结构,吸收了ResNet 的优点

Method

Simple is Fast, Memory-economical, Flexible

  • 有两个因素会导致Flops和速度之间的Gap: MAC 和 并行度。在相同的FLOPs下,具有高并行度的模型可能比具有低并行度的模型快得多。堆叠结构拥有更高的并行度。

Untitled

  • 多分支拓扑结构由于需要保留每个分支的结果,直到相加或串联为止,分支中的特征图尺寸保持不变时,需要两倍的内存。
  • 在简单的堆叠结构中,允许计算完改层后立即释放该层的输入所占用的内存。因此这种计算方式也对硬件更加友好。
  • 多分支结构也会造成剪枝上的困难

.Re-param for Plain Inference-time Model

Untitled

  • 如果大kernel 卷积和小kernel 卷积的步长相同,那么就可以用简单叠加的方法合多个分支的卷积核,用单个卷积来替代,小kernel卷积通过补零的方式padding成大卷积的尺寸
  • 对于3x3的图层,将输入填充一个像素,则1 x 1的图层应具有padding = 0
  • 总结起来一共两步变化:把所有卷积变化成3X3,紧接着把多分支合并成一个。
  • 对BN参数进行融合

Untitled

Attentive Fine-Grained Structured Sparsity for Image Restoration

Attentive Fine-Grained Structured Sparsity for Image Restoration

TL;DR

N:M structured pruning 是目前比较有效的模型压缩技术,本文提出了对每一层实现不同的sturtured sparsity的pruning方法,进而实现准确性和效率之间的tradeoff

Method

Untitled

  • 一个满足N:M sparsity的tensor应该满足如下性质。(1)input channel 可以被M整除 (2)每组M个连续weights至少有N个非零权重。weight,input tensor的压缩方法如图(a)所示。两者都能有N:M的压缩空间

  • 可导的N:M Sparsity Search

    • 首先将weight表示为M组 1:M sparisity的稀疏weight之和。每一个weight的重要性都用 一个强度参数来衡量
    • b是一个二值参数,表示该组参数是否被保留还是丢弃,梯度下降中通过STE来优化这个值. B 中p表示weight的优先级分数,用于决定pruning ratio

    Untitled

  • Priority - Ordered Pruning

    • 上述一共有两种度量方式来决定pruning ratio。当两者产生mis alignment时,容易造成性能下降。通过使得Pi+i < Pi, 优先移除强度参数小的权重

    Untitled

    Untitled

  • Loss Function

pruned Loss 表示压缩后模型的MACS,通过如下形式实现算法性能和模型大小之间的tradeoff

Untitled

  • Adaptive Inference

    • 通过图像patch的难度,来自适应使用剪枝模型。为了量化图像块的恢复难度,假设图像块越难恢复,GT与恢复结果之间的误差越大。由于在推理时无法获得GT,我们使用了一种轻型卷积神经网络,可以估计GT和目标模型恢复结果之间的均方误差(MSE)。给定由具有不同目标计算预算的SLS训练的多个模型,来给候选模型来打分。

    Untitled

    Untitled

Accelerating Video Object Segmentation with Compressed Video

Accelerating Video Object Segmentation with Compressed Video

TL;DR

提供了一种高效的,即插即用的加速框架,用于解决半监督点视频物体分割任务。如何加速,利用视频序列的冗余程度以及压缩比特流。为了实现把 关键帧的mask 单向/双向传播给其他帧。另外还设计了residual-based correction module 来fix 错误的mask。

Preliminaries

  • HEVC coding structure包括一系列帧称为(GOP),每个GOP使用三种帧类型:I-frame / P-frame / B-frame. I frame表示完全独立地被编码。P-frame / B-frame 则表示通过来自其他帧的运动补偿和残差来编码。P / B frame 存储的motion vector可以被认为是block-wise 的光流。
  • Motion compensation in compressed video
    • 预测motion vector 的模块被称为PU。Prediction Unit,size 可以是64X64, 8X4, 4X4.
    • PU可以是单向的,也可以双向。P-frame 只包含单向的PU,B-frame 包括双向PU
    • 通过双向的motion vector,可以通过线性组合来重构帧。

Untitled

  • 在一些比较旧的编码设置中,例如CVOS,reference 帧的选择也有要求,必须是I-frame。现代Codec方法,允许P-frame,B-frame类型,从其他的 P / B中去获取参考的pixel . 由于Motion Vector比较粗糙,因此也沿用了一个 Residue对恢复的图像进行pixel detail的修复

Untitled

  • E_i 应当是稀疏的,E_i 的稀疏程度和PU的准确程度成正比

Method

Untitled

问题定义

  • 把从长度为T的压缩比特流 中decoded sequence记作

Untitled

  • 为了区分,用下标 i / k 来区分关键帧和非关键帧。对于非关键帧的,需要利用光流去做一次warp

Untitled

Untitled

4.1 Soft motion-vector propagation module

  • 介绍了如何用motion vector来替代光流。用P和V分别来表示segmentation 和 feature

Untitled

  • 前两个代表单向的propagation, 第三个表示双向的,前向和后向分别是等权重的。w表示重构目标中的tuning 参数。u,t为小数时,则对reference帧采用 最近邻 / 双线性插值。

Untitled

  • 为了消除noise / error的影响,用一个decoder 来实现soft 的 propagation。decoder是一个轻量级,对原始的mask进行denoise(参考image的low-level feature)

Untitled

  • 定义一个相似度来衡量propagate 前后的feature

Untitled

Residual-based correction module


  • 通过patch generation 和 label matching来建模correction。 先把residue 转换成灰度空间,接着利用二值化得到binary mask。 把Residue 和 dilate后的前景mask 取交集,得到修正后的mask

Untitled

Untitled

Key frame & base network selection

  • 根据压缩类型来选择关键帧。关键帧不仅包括 I frame , 还包括 P frame。因为I frame的数量仅占到5%左右。P帧作为关键帧也可以提升精度,因为motion vector 在P帧中是严格单向的
  • 采用memory network ,例如STM, MiVOS, and STCN比较适合加速