논문리뷰(26)
-
[논문 리뷰] GroupViT
정말 오랫만에 논문 리뷰글을 쓰려고 한다. 최근 블로그를 하지 못했는데 논문을 발표할 기회가 생겨서 겸사 블로그에도 글을 정리하려고 한다. 이번에 리뷰할 논문은 GroupViT: Semantic Segmentation Emerges from Text Supervision이다. https://arxiv.org/abs/2202.11094 GroupViT: Semantic Segmentation Emerges from Text Supervision Grouping and recognition are important components of visual scene understanding, e.g., for object detection and semantic segmentation. With end-to-e..
2023.04.28 -
[논문 리뷰] PATCH-FOOL
최근 논문 작업과 수업 등의 일들이 겹치면서 오랫만에 논문 리뷰 글을 쓰게 되었다. 이번에 리뷰할 논문은 "Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations?" 이라는 제목의 논문이고, 본인이 Adversarial Attack과 Vision Transformer (ViT)에 관심이 있는 만큼 ViT의 adversarial robustness에 대한 내용을 담고 있다. https://arxiv.org/abs/2203.08392 Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations? Vision transforme..
2022.11.29 -
[논문 리뷰] SwinIR: Image Restoration Using Swin Transformer
2020년에 Vision Transformer가 등장하면서 많은 vision task에서 transformer를 사용한 모델이 매우 좋은 성과를 보이고 있다. 본 논문에서는 Swin Transformer와 여러 structural design을 통해서 attention-based architecture가 image reconstruction tasks (ex. denoising, super-resolution, compression)에서 SOTA성능을 낼 수 있다는 것을 보여준다. https://arxiv.org/abs/2108.10257 SwinIR: Image Restoration Using Swin Transformer Image restoration is a long-standing low-lev..
2022.06.22 -
[논문 리뷰] Pix2Pix: Image-to-Image Translation with CGAN
이번 논문 리뷰는 GAN 논문 중에서도 많은 인용 수를 자랑하는 Pix2Pix이다. Conditional Generative Adversarial Network(CGAN)을 사용하여 한 이미지를 다른 domain(style)의 이미지로 변환하는 방법을 제안하였고 기존의 방식들은 특정 task마다 loss나 architecture를 specific하게 design해주었던 것과 달리 하나의 structure를 사용하여 모든 tasks에 적용할 수 있도록 base model을 제공했다는 점이 큰 contribution이라고 할 수 있다. 1. Problems of Tranditional methods Computer vision에는 무수한 task들이 존재하는데, 많은 문제들을 input image를 어떠한 ..
2022.05.22 -
[논문 리뷰] Tokens-to-Token ViT
이번에 소개할 논문은 Tokens-to-Token ViT라는 논문이다. https://arxiv.org/abs/2101.11986 Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Transformers, which are popular for language modeling, have been explored for solving vision tasks recently, e.g., the Vision Transformer (ViT) for image classification. The ViT model splits each image into a sequence of tokens with fixed length and ..
2022.05.05