(1) 동기
대부분의 Image restoration 모델이 CNN을 기반으로 하고 있었습니다.
최근에 Transformer를 Image restoration 적용하려는 노력으로 최근 높은 성능을 달성하였습니다.
이러한 상황속에서 위 논문의 저자들은 Swin transformer에 기반한 SwinIR baseline 모델을 제안합니다.
(2) Method

SwinIR은 3가지 파트로 구성되어 있습니다.
3가지 파트에 대해 차례로 설명해 드리겠습니다.
1) Shallow feature extraction
shallow feature extraction 단계에는 3 × 3 convolutional layer를 활용합니다.
위 과정을 통해 조금 더 안정적인 최적화를 진행할 수 있습니다
또한 간단한 방법으로 input 이미지를 고차원의 feature 영역에 mapping할 수 있습니다.
이 과정을 통해 추출된 feature은 주로 low-frequence를 포함하고 있습니다.
2) Deep feature extraction
Residual Swin Transformer Block(RSTB) 과 convolution layer로 구성되어 있습니다.
주로 손실된 high-frequence 정보를 복원하는데 집중합니다.
Residual Swin Transformer Block은 Swin Transformer, convolution layer로 구성되어 있으며 residual block을 함께 사용합니다.
이러한 설계를 통해 두가지 이점을 얻습니다.
1. translational equivariance의 향상
2. 서로다른 level의 feature 결합
3) Image reconstruction
Long skip connection을 통해 SwinIR은 low-frequence 정보를 reconstruction 모듈로 전달할 수 있습니다.
이를 통해 deep feature extraction 모듈이 high-frequence에 집중할 수 있으며 안정적인 학습을 진행할 수 있습니다.
sub-pixel convolution layer를 통해 upsampling을 진행합니다.
(3) 실험 결과

Table 2는 기존 sota 방법과 SwinIR의 성능 비교를 보여줍니다.
DIV2K을 통해 학습을 진행하였을 때, SwinIR은 거의 모든 벤치마크 데이터셋과 scale factor에 대해 최고의 성능을 달성합니다.
또한 용량이 큰 DF2k 데이터 셋을 통해 학습을 진행하였을 경우 SwinIR의 PSNR, SSIM은 더욱 크게 상승하였습니다.
(4) 요약
Swin Transformer을 기반으로 Image restoration 모델인 SwinIR을 제안하였다.
SwinIR 은 shallow feature extraction 모듈, deep feature extraction 모듈, HR reconstruction 모듈로 구성되어 있다.
deep feature extraction을 위해 residual Swin Transformer blocks (RSTB)을 사용하였고, RSTB는 Swin Transformer layers, convolution layer, residual connection으로 구성되어 있다.
SwinIR은 최근 Image reconstruction task에서 sota 성능을 달성하였다.
(classic image SR, lightweight image SR, real-world image SR, grayscale image denoising, color image denoising, JPEG compression artifact reduction)