분류 전체보기(82)
-
[Detection] YOLO (You Only Look Once)
You Only Look Once: Unified, Real-Time Object Detection Object detection task에서 좋은 성능을 보였던 RCNN 계열은 성능은 좋지만 end-to-end 학습이 안되고 stage에 따라 학습을 여러 번 해야하는 번거로움이 있었다. 또한, region proposal과 같은 방법은 window 마다 모델을 통과시켜야 하였기 때문에 속도 측면에서 매우 큰 단점을 가졌다. YOLO는 위와 같은 단점을 해결하고자 문제를 regression task로 바꾸어 하나의 모델로 end-to-end 학습을 할 수 있도록 만든 방법이다. https://arxiv.org/abs/1506.02640 You Only Look Once: Unified, Real-Time..
2022.09.06 -
[논문] 작성한 논문을 Arxiv에 제출하는 방법!
이번에 논문을 arxiv에 제출할 기회가 생겨서 어떻게 제출하는지에 대해 다루는 글을 쓰기로 하였다. 방법은 그렇게 어렵지 않지만 처음 하는 경우 다소 헷갈리는 점이 있을 수 있어서 그러한 사람들에게 도움이 되었으면 한다. 0. 내기 전 주의해야할 점! 먼저 Arxiv에 제출하기 전에, 만약 내고 싶은 논문이 어떠한 journal이나 conference에 심사를 받고 있는 중이라면 절대! 그 정보를 latex 파일에 남겨놓으면 안된다. Arxiv에 올릴 때 latex파일을 제출하기 때문에 주석으로라도 남겨놓으면 누구나 볼 수 있어 꼭 다시 한번 확인하길 바란다. 참고로 Arxiv는 한 번 제출하면 되돌리기가 불가능하다... 1. Arxiv에 제출할 파일 생성하기 필자는 Overleaf와 Arxiv제출용..
2022.08.20 -
[논문 리뷰] SwinIR: Image Restoration Using Swin Transformer
2020년에 Vision Transformer가 등장하면서 많은 vision task에서 transformer를 사용한 모델이 매우 좋은 성과를 보이고 있다. 본 논문에서는 Swin Transformer와 여러 structural design을 통해서 attention-based architecture가 image reconstruction tasks (ex. denoising, super-resolution, compression)에서 SOTA성능을 낼 수 있다는 것을 보여준다. https://arxiv.org/abs/2108.10257 SwinIR: Image Restoration Using Swin Transformer Image restoration is a long-standing low-lev..
2022.06.22 -
[논문 리뷰] Pix2Pix: Image-to-Image Translation with CGAN
이번 논문 리뷰는 GAN 논문 중에서도 많은 인용 수를 자랑하는 Pix2Pix이다. Conditional Generative Adversarial Network(CGAN)을 사용하여 한 이미지를 다른 domain(style)의 이미지로 변환하는 방법을 제안하였고 기존의 방식들은 특정 task마다 loss나 architecture를 specific하게 design해주었던 것과 달리 하나의 structure를 사용하여 모든 tasks에 적용할 수 있도록 base model을 제공했다는 점이 큰 contribution이라고 할 수 있다. 1. Problems of Tranditional methods Computer vision에는 무수한 task들이 존재하는데, 많은 문제들을 input image를 어떠한 ..
2022.05.22 -
[논문 리뷰] Tokens-to-Token ViT
이번에 소개할 논문은 Tokens-to-Token ViT라는 논문이다. https://arxiv.org/abs/2101.11986 Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Transformers, which are popular for language modeling, have been explored for solving vision tasks recently, e.g., the Vision Transformer (ViT) for image classification. The ViT model splits each image into a sequence of tokens with fixed length and ..
2022.05.05