ReNet
ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks
Abstract
In this paper, we propose a deep neural network architecture for object recognition based on recurrent neural networks. The proposed network, called ReNet, replaces the ubiquitous convolution+pooling layer of the deep convolutional neural network with four recurrent neural networks that sweep horizontally and vertically in both directions across the image. We evaluate the proposed ReNet on three widely-used benchmark datasets; MNIST, CIFAR-10 and SVHN. The result suggests that ReNet is a viable alternative to the deep convolutional neural network, and that further investigation is needed.
요약
ReNet은 기존의 컨볼루션 레이어와 풀링 레이어를 RNN으로 교체해 이미지를 가로세로로 살피도록 했습니다. 그리고 이 RNN 레이어를 쌓았습니다. 저자들은 ReNet 구조가 CNN(컨볼루션 뉴럴넷)의 충분한 대안이 될 수 있음을 보였습니다. 이 논문에서는 ReNet이 CNN보다 더 좋은 성능을 보이진 않지만, 앞으로 더 많은 최적화와 하이퍼파라메터 튜닝을 한다면 성능이 향상될 것으로 보입니다.
- 이미지를 패치로 쪼갠 후, 매 시간 스텝마다 RNN에 한 패치씩 넣어줬습니다. 레이어마다 4개의 RNN을 두어 가로세로 네 방향마다 하나씩 처리했습니다.
- ReNet은 RNN이 이미지 전체를 살펴보기 때문에 전체 컨텍스트를 볼 수 있습니다. 반면 컨볼루션/풀링 레이어의 경우 로컬 컨텍스트만 볼 수 있습니다.
- 실험에서는 두 개의 256차원 ReNet 레이어, 2x2 패치, 4096차원 아핀(affine) 레이어를 사용했습니다.
- 뒤집고(flipping) 이동한(shifting) 이미지도 추가해 데이터를 늘렸습니다.