SPPnet
어떤 input size의 image도 fixed size의 vector output으로 나오게 함. 기존 AlexNet같은 경우 227x227 사이즈의 이미지만 input으로 가능했다. (한 2년 전 얘기.) 그 이유는 CNN에서 Convolution은 input size에 상관이 없으나, Fully Connected(FC) layer에서 input size가 반드시 고정되어야하니까. Convolution은 filter로 convolution 계산만 하는 개념, FC는 fixed input size에서 fixed output size로 transformation을 하는 개념이다.
- 고정 크기인 FC에서 크기가 다른 이미지를 Spatial Pyramid Pooling (SPP) Layer를 통하여 FC에 통일된 크기를 넘길 수 있도록 해준다.
Category
Conventional CNN vs SPPnet structure
Conventional_CNN_vs_SPPnet_structure.png
Spatial Pyramid Pooling
CNN과 비교하여, 몇가 주목할 만한 성질이 있다.
- SPP는 입력 크기에 관계없이 고정 길이 출력을 생성 할 수 있다. 그러나 기존 딥네트워크에서 사용 된 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 불가능하다.
- SPP는 다단계 공간 저장소를 사용하는 반면, 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 단일 창 크기 만 사용합니다.
A_network_structure_with_a_spatial_pyramid.png
- 공간 피라미드 풀링의 출력은 M으로 표시된 Bin의 수를 갖는 kM-차원(kM-dimensional) 벡터입니다.
- k는 마지막 콘볼 루션 계층의 필터 수입니다.
Documentation
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (v4)
- https://github.com/ShaoqingRen/SPP_net
-
1406.4729v4.pdf
See also
- R-CNN (Paper: R-CNN:Paper)
- Fast R-CNN (Paper: Fast R-CNN:Paper)
- Faster R-CNN (Paper: Faster-RCNN:Paper)
- Objectness
- Caffe
- Edge Boxes
Favorite site
- [추천] funMV: SPP net (ko) 1
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Presenter ByungIn Yoo CS688/WST665 2