논문리뷰/Vision Transformer(8)
-
[논문 리뷰] How do Vision Transformer Work?
이번에 소개할 논문은 ICLR 2022 spotlight를 받은 How do Vision Transformer Work? 라는 논문이다.https://arxiv.org/abs/2202.06709 How Do Vision Transformers Work?The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand the nature of MSAs. In particular, we demonstrate the folla..
2023.11.30 -
[논문 리뷰] GroupViT
정말 오랫만에 논문 리뷰글을 쓰려고 한다. 최근 블로그를 하지 못했는데 논문을 발표할 기회가 생겨서 겸사 블로그에도 글을 정리하려고 한다. 이번에 리뷰할 논문은 GroupViT: Semantic Segmentation Emerges from Text Supervision이다. https://arxiv.org/abs/2202.11094 GroupViT: Semantic Segmentation Emerges from Text Supervision Grouping and recognition are important components of visual scene understanding, e.g., for object detection and semantic segmentation. With end-to-e..
2023.04.28 -
[논문 리뷰] SwinIR: Image Restoration Using Swin Transformer
2020년에 Vision Transformer가 등장하면서 많은 vision task에서 transformer를 사용한 모델이 매우 좋은 성과를 보이고 있다. 본 논문에서는 Swin Transformer와 여러 structural design을 통해서 attention-based architecture가 image reconstruction tasks (ex. denoising, super-resolution, compression)에서 SOTA성능을 낼 수 있다는 것을 보여준다. https://arxiv.org/abs/2108.10257 SwinIR: Image Restoration Using Swin Transformer Image restoration is a long-standing low-lev..
2022.06.22 -
[논문 리뷰] Tokens-to-Token ViT
이번에 소개할 논문은 Tokens-to-Token ViT라는 논문이다. https://arxiv.org/abs/2101.11986 Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Transformers, which are popular for language modeling, have been explored for solving vision tasks recently, e.g., the Vision Transformer (ViT) for image classification. The ViT model splits each image into a sequence of tokens with fixed length and ..
2022.05.05 -
[논문 리뷰] Not all images are worth 16x16 words
이번에 소개할 논문은 제목에서 알 수 있듯이, 모든 이미지를 똑같은 patch size로 나눌 필요가 없다!라는 주제를 가지고 있다. ViT는 patch size를 달리하였을 때 더 많은 tokens이 만들어졌을 때 더 높은 성능을 보여주나 computational cost가 급격하게 증가하는 단점을 가지고 있다. 저자는 이미지가 저마다 가지고 있는 특성이 다르기 때문에 각각에 대해서 token의 개수를 dynamic하게 정해줌으로써 위와 같은 문제점을 완화할 수 있다고 주장한다. 본 논문으로 들어가보자! https://arxiv.org/abs/2105.15075 Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image ..
2022.05.05