Skip to content

SPPnet

어떤 input size의 image도 fixed size의 vector output으로 나오게 함. 기존 AlexNet같은 경우 227x227 사이즈의 이미지만 input으로 가능했다. (한 2년 전 얘기.) 그 이유는 CNN에서 Convolution은 input size에 상관이 없으나, Fully Connected(FC) layer에서 input size가 반드시 고정되어야하니까. Convolution은 filter로 convolution 계산만 하는 개념, FC는 fixed input size에서 fixed output size로 transformation을 하는 개념이다.

고정 크기인 FC에서 크기가 다른 이미지를 Spatial Pyramid Pooling (SPP) Layer를 통하여 FC에 통일된 크기를 넘길 수 있도록 해준다.

Category

SPPnet:Paper

Conventional CNN vs SPPnet structure

Conventional_CNN_vs_SPPnet_structure.png

Spatial Pyramid Pooling

CNN과 비교하여, 몇가 주목할 만한 성질이 있다.

SPP는 입력 크기에 관계없이 고정 길이 출력을 생성 할 수 있다. 그러나 기존 딥네트워크에서 사용 된 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 불가능하다.
SPP는 다단계 공간 저장소를 사용하는 반면, 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 단일 창 크기 만 사용합니다.

A_network_structure_with_a_spatial_pyramid.png

공간 피라미드 풀링의 출력은 M으로 표시된 Bin의 수를 갖는 kM-차원(kM-dimensional) 벡터입니다.
k는 마지막 콘볼 루션 계층의 필터 수입니다.

Documentation

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (v4): https://github.com/ShaoqingRen/SPP_net; 1406.4729v4.pdf

See also

Favorite site

[추천] funMV: SPP net (ko) ¹
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Presenter ByungIn Yoo CS688/WST665 ²

References

FunMV_SPPnet.pdf ↩
Spatial_Pyramid_Pooling_in_Deep_Convolutional_Networks_for_Visual_Recognition_Presenter_ByungIn_Yoo.zip ↩