Skip to content

SPPnet

어떤 input size의 image도 fixed size의 vector output으로 나오게 함. 기존 AlexNet같은 경우 227x227 사이즈의 이미지만 input으로 가능했다. (한 2년 전 얘기.) 그 이유는 CNN에서 Convolution은 input size에 상관이 없으나, Fully Connected(FC) layer에서 input size가 반드시 고정되어야하니까. Convolution은 filter로 convolution 계산만 하는 개념, FC는 fixed input size에서 fixed output size로 transformation을 하는 개념이다.

  • 고정 크기인 FC에서 크기가 다른 이미지를 Spatial Pyramid Pooling (SPP) Layer를 통하여 FC에 통일된 크기를 넘길 수 있도록 해준다.

Category

Conventional CNN vs SPPnet structure

Conventional_CNN_vs_SPPnet_structure.png

Spatial Pyramid Pooling

CNN과 비교하여, 몇가 주목할 만한 성질이 있다.

  • SPP는 입력 크기에 관계없이 고정 길이 출력을 생성 할 수 있다. 그러나 기존 딥네트워크에서 사용 된 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 불가능하다.
  • SPP는 다단계 공간 저장소를 사용하는 반면, 슬라이딩 윈도우 풀링(Sliding Window Pooling)은 단일 창 크기 만 사용합니다.

A_network_structure_with_a_spatial_pyramid.png

  • 공간 피라미드 풀링의 출력은 M으로 표시된 Bin의 수를 갖는 kM-차원(kM-dimensional) 벡터입니다.
  • k는 마지막 콘볼 루션 계층의 필터 수입니다.

Documentation

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (v4)
https://github.com/ShaoqingRen/SPP_net
1406.4729v4.pdf

See also

Favorite site

References


  1. FunMV_SPPnet.pdf 

  2. Spatial_Pyramid_Pooling_in_Deep_Convolutional_Networks_for_Visual_Recognition_Presenter_ByungIn_Yoo.zip