논문리뷰(26)
-
[논문 리뷰] Not all images are worth 16x16 words
이번에 소개할 논문은 제목에서 알 수 있듯이, 모든 이미지를 똑같은 patch size로 나눌 필요가 없다!라는 주제를 가지고 있다. ViT는 patch size를 달리하였을 때 더 많은 tokens이 만들어졌을 때 더 높은 성능을 보여주나 computational cost가 급격하게 증가하는 단점을 가지고 있다. 저자는 이미지가 저마다 가지고 있는 특성이 다르기 때문에 각각에 대해서 token의 개수를 dynamic하게 정해줌으로써 위와 같은 문제점을 완화할 수 있다고 주장한다. 본 논문으로 들어가보자! https://arxiv.org/abs/2105.15075 Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image ..
2022.05.05 -
[논문리뷰] Attention Augmented Convolutional Networks
1. Introduction 1.1 Convolutional Neural Network(CNN) CNN은 computer vision에서 높은 성능을 보여주면서 dominant한 mechanism으로 자리잡았다. 이렇게 CNN이 이미지 task에최적화된 성능을 낼 수 있는 이유는 1) 일정 크기의 kernel을 통한 sliding 방식으로 receptive field를 제한하여 "locality"를 가지는 점과 2) weight sharing을 통한 translation equivariance 특성이 있다. 하지만 이러한 convolutional kernel의 locality로 인해서 이미지의 global contexts를 잡아내기 힘들다는 단점도 존재한다. >> locality가 좋은 이유는 어떠한 ..
2022.03.24 -
[논문 리뷰] Matching Networks for one shot learning
1. Introduction 사람은 새로운 개념을 배울 때 아주 적은 수의 데이터로도 object에 대해 generalize하는 것이 가능하다. 하지만 CNN은 어떠한가? 위의 기린이라는 새로운 object를 학습하려면 많은 이미지를 필요로 한다. 이미지 데이터와 그 label을 만드는 것은 간단하게 생각해보아도 비용이 매우 비쌀 것이다. "few-shot learning"은 Neural Network도, 사람과 같이, 새로운 개념을 배울 때 아주 적은 데이터로도 잘 학습할 수 있도록 만드는 것을 목표로 한다. 출처: https://nanonets.com/blog/data-augmentation-how-to-use-deep-learning-when-you-have-limited-data-part-2/ l..
2022.03.15 -
[논문 리뷰] Stand-Alone Self-Attention in Vision Models
Vision Transformer가 나오기 이전에도 self-attention을 computer vision 분야에 접목시키려는 많은 시도들이 있었다. 이번 논문은 그중에서 처음으로 self-attention만을 사용해서 모델을 만들었다. https://arxiv.org/abs/1906.05909 Stand-Alone Self-Attention in Vision Models Convolutions are a fundamental building block of modern computer vision systems. Recent approaches have argued for going beyond convolutions in order to capture long-range dependencies. T..
2022.03.09 -
[논문 리뷰] An Image is Worth 16x16 Words: Transformers for image Recognition at scale(VIT)
최근들어 필자가 가장 많은 관심을 가지고 있는 vision transformer가 처음 등장하는 논문이다. 물론 이 논문 이전에도 transformer를 vision 분야에 적용한 시도들이 있었지만, 실제로 vision분야에서 transformer가 널리 알려지게 된 것은 이 논문부터라고 해도 과언이 아니다. 한번 vision transformer를 뿌셔보자!! 1. Introduction Transformer in NLP Transformers는 NLP에서 먼저 언급된 개념이고 지금까지 dominant하게 쓰이는 approach이다. 기존에 NLP에서는 Sequence model(ex. RNN, LSTM)이 많이 사용되었는데 그러한 모델들은 순차적으로 token들을 넣어주어야 하기 때문에 gpu처리가 ..
2022.03.07