Computer Vision
-
[An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale] 논문 리뷰Computer Vision 2021. 2. 26. 14:21
Attention Is All You Need 논문에서 제안된 Transformer은 이후 NLP 분야에서 매우 폭넓게 사용됐습니다(현재까지도). inductive bias가 적다는 특징이 있으며, 데이터셋이 매우(구글의 300M과 같이...) 큰 환경에서 pretrain, 혹은 pretext task 학습을 진행후 downstream task 등에서 활용하기에 용이합니다. BERT, GPT 등의 Transformer 기반 NLP 모델들이 많이 연구되었으니, 찾아보시길 권합니다. 오늘 설명할 논문은 구글의 An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale 이라는 논문입니다. 구글 리서치, 브레인 팀 소속의 연구자들이 집필..