/ECCV2022 | 用于可扩展的单图像超分中自适应“块早退”

ECCV2022 | 用于可扩展的单图像超分中自适应“块早退”

作者:欲扬先抑
转载: https://zhuanlan.zhihu.com/p/589071778

论文源地址:https://arxiv.org/abs/2203.11589
论文源代码:https://github.com/littlepure2333/APE

动机

这篇文章的motivation主要是对SISR任务的一个加速。在文中提到,现有的工作往往需要依赖pixel-wise sparse convolution,而它对硬件是很不友好的。尽管这种串级联式的layer能够提高网络建模contextual information的能力,但是平衡performance和efficiency的工作仍缺乏探索。

针对这一问题,作者提出了一个scalable的策略 Adaptive Patch Exiting (APE) 。更具体地,作者训练了一个regressor来预测每一个layer中的patch的incremental capacity。通过incremential capacity能够评估每一个layer的必要性。一旦incremental capacity低于一个阈值,patch可以从一个特殊的层退出。作者提出的这些方法能够简单的平衡performance和efficiency,通过改变incremental capacity的阈值。更多地,作者提出了一个策略能够联合训练regressor和SR network。

本文方案

Training Multi-exit SR Networks

其实patch exiting的思想很简单,就是在中间的layer通过Regressor判断是否满足退出条件,满足的话,直接将patch送入最后的Tail部分进行上采样。整体的框架如下图所示:

img

Estimating Incremental Capacity

为了使得multi-exit SR networks是可扩展的,需要在特定的层设计一个退出singal。因此,作者训练了32-exit EDSR在DIV2K上。作者随机采样了
LR patches去观察layer-wise层面的效果:


可以从图2中观察到有三种类型的patch。其中,bottleneck pathes可以取得较满意的结果在经过一些层后。第二种被称为growing patches,需要更多的层去获得更好的实验效果。第三种被称为over-fitting patches,在更多地layers后效果反而更差。上述的结果说明设计的这个signal的时候需要当效果达到饱和的时候,而不是效果超越了一定的阈值的时候。(其实这里我没太看懂,图2的横坐标意味着啥?求大佬在评论区指正一下,万分感谢!!)

作者基于上述的观察和发现,设计了early-exit signal
作为第
层的incremental capacity,它衡量的是前一层和当前层的效果差异:



接近于0的时候,意味着效果达到了饱和,而当
低于0的时候,意味着效果会变得更差。在这篇文章中,作者利用PSNR来衡量SR image和HR image的复原效果:


作者在这里给出了一个结论:网络的规模或者说能力与最终重建图像的效果并不是单调的,有一些patch经过更多的layer效果会变得更差。

由于在推理的时候缺少HR图,我们并不能准确地得到incremental capacity,因此作者提出训练一个轻量级的regressor R 来评估
,所有的layer都共享同一个regressor:


其中 g 是global average pooling操作。训练这个 R 采用的损失函数是 L2 loss:


Jointly Training SR Network and Regressor

联合训练的方式很简单,用 λ 平衡两个losses:


本文实验

可以简单看一下效果,发现在采用APE策略减少FLOPS的情况下,效果是有提升的:


APE的效果在表2中详细的列出来了。对于相同效果的SR networks,不同的计算开销。


Ablation Studies

不同的Patch size和Strides,以及利用RCAN作为backbone训练ClassSR和AdaDSR的效果。可以发现APE在几乎不增加参数量的情况下达到了最快的推理速度。


推荐阅读

  1. NAFNet :无需非线性激活,真“反直觉”!但复原性能也是真强!
  2. 真实用!ETH团以合成数据+Swin-Conv构建新型实用盲图像降噪
  3. ELAN | 比SwinIR快4倍,图像超分中更高效Transformer应用探索
  4. AIM2020-ESR冠军方案解读:引入注意力模块ESA,实现高效轻量的超分网络
  5. CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM模型刷榜多个图像处理任务
  6. CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM模型刷榜多个图像处理任务,代码已开源
  7. ELAN | 比SwinIR快4倍,图像超分中更高效Transformer应用探索
  8. CNN与Transformer相互促进,助力ACT进一步提升超分性能
  9. CVPR2022 | Restormer: 刷新多个low-level任务指标
  10. Transformer在图像复原领域的降维打击!ETH提出SwinIR:各项任务全面领先

本文来自微信公众号“AIWalker”(ID:happyaiwalker)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。