Skip to content

Masked Autoencoders Are Scalable Vision Learners

About

Masked Autoencoders Are Scalable Vision Learners(링크)는 Facebook AI Research(아직은 Facebook으로 되어있는데 meta로 바뀌겠죠?)에서 나온 논문으로, 현재 CVPR 2022에 submit되어 review중인 듯합니다.

간단하게 요약하면, Masked autoencoder는

Masked patch를 복원하는 task로 학습한 것을 pretrained weight로 삼아서 Downstream task로 Finetuning했을 때 예측 성능이 더 좋다.

는 내용입니다.

Language model에서 Transformer 이후 BERT가 등장한 것과 마찬가지로 Vision Transformer(이하 ViT)의 BERT격이 이 MAE라고 생각합니다.

Documentation

[2111.06377] Masked Autoencoders Are Scalable Vision Learners
https://arxiv.org/abs/2111.06377

See also