Skip to content

R-CNN:Paper


Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
UC Berkeley
{rbg,jdonahue,trevor,malik}@eecs.berkeley.edu

Abstract

ENG

KOR

Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. In this paper, we propose a simple and scalable detection algorithm that improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012—achieving a mAP of 53.3%. Our approach combines two key insights: (1) one can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposals in order to localize and segment objects and (2) when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost. Since we combine region proposals with CNNs, we call our method R-CNN: Regions with CNN features. We also compare R-CNN to OverFeat, a recently proposed sliding-window detector based on a similar CNN architecture. We find that R-CNN outperforms OverFeat by a large margin on the 200-class ILSVRC2013 detection dataset. Source code for the complete system is available at http://www.cs.berkeley.edu/˜rbg/rcnn

물체 검출 성능은, 표준 PASCAL VOC 데이터 세트에서 측정 된 최근 몇 년 plateaued있다. 최고 성능의 방법은 일반적으로 높은 수준의 문맥 여러 저레벨 이미지 기능을 결합 앙상블 복잡한 시스템이다. 본 논문에서는 상대적으로 휘발성 유기 화합물 (VOC) 53.3 %의지도를 2012-달성에 이전 최상의 결과 30 % 이상 평균 평균 정밀도 (MAP)을 개선하는 간단하고 확장 성이 검출 알고리즘을 제안한다. 지역화하기 위해 세그먼트 객체와 (2) 표시 훈련 데이터가 부족한 경우, 감독 사전 교육 (1) 하나의 상향식 (bottom-up) 지역의 제안에 고용량 길쌈 신경망 (CNNs)을 적용 할 수 있습니다 : 우리의 접근 방식은 두 가지 중요한 통찰력을 결합 도메인 별 미세 조정 뒤에 보조 작업을 위해, 상당한 성능 향상을 얻을 수 있습니다. CNN 기능을 갖춘 지역 : 우리가 CNNs와 지역의 제안을 결합하기 때문에, 우리는 우리의 방법 R-현지를 호출합니다. 또한 OverFeat, CNN 유사한 아키텍처를 기반으로 최근에 제안 된 슬라이딩 윈도우 검출기 R-CNN과 비교. 우리는 R-CNN은 200 급 ILSVRC2013 감지 데이터 세트에 큰 차이로 OverFeat 능가 것을 찾을 수 있습니다. 전체 시스템의 소스 코드는 http://www.cs.berkeley.edu/~rbg/rcnn에서 확인할 수있다

Introduction

ENG

KOR

Features matter. The last decade of progress on various visual recognition tasks has been based considerably on the use of SIFT [29] and HOG [7]. But if we look at performance on the canonical visual recognition task, PASCAL VOC object detection [15], it is generally acknowledged that progress has been slow during 2010-2012, with small gains obtained by building ensemble systems and employing minor variants of successful methods.

특징이 중요합니다. 다양한 시각적 인식 작업에 대한 지난 10 년간의 연구는 SIFT [29]와 HOG [7]의 사용에 상당히 의존해왔다. 그러나 표준 시각 인식 작업 인 PASCAL VOC 객체 탐지 [15]에서 성능을 살펴보면, 앙상블 시스템을 구축하고 성공적인 방법의 작은 변형을 사용하여 얻은 작은 이득으로 2010-2012 년 동안 진행이 느리다는 것이 일반적으로 인정됩니다.

SIFT and HOG are blockwise orientation histograms, a representation we could associate roughly with complex cells in V1, the first cortical area in the primate visual pathway. But we also know that recognition occurs several stages downstream, which suggests that there might be hierarchical, multi-stage processes for computing features that are even more informative for visual recognition.

SIFT와 HOG는 블록 단위 방향 히스토그램으로 영장류 시각 경로의 첫 번째 피질 영역 인 V1의 복잡한 세포와 대략 연관시킬 수 있습니다. 그러나 우리는 인식이 여러 단계 하류에서 발생한다는 것을 알고 있습니다. 이는 시각적 인식을 위해보다 유익한 기능을 계산하기위한 계층 적, 다단계 프로세스가 있음을 의미합니다.

Fukushima’s “neocognitron” [19], a biologicallyinspired hierarchical and shift-invariant model for pattern recognition, was an early attempt at just such a process. The neocognitron, however, lacked a supervised training algorithm. Building on Rumelhart et al. [33], LeCun et al. [26] showed that stochastic gradient descent via backpropagation was effective for training convolutional neural networks (CNNs), a class of models that extend the neocognitron.

후쿠시마의 "neocognitron"[19]은 패턴 인식을위한 생물학적으로 자극받은 계층 적 및 시프트 불변 모델로, 그러한 과정을 초기에 시도한 것입니다. 그러나 neocognitron은 감독 된 훈련 알고리즘이 부족했습니다. Rumelhart et al. [33], LeCun et al. [26]은 역 전파 (backpropagation)를 통한 확률적인 그래디언트 디센트 (descent)가 네오 코 그니 트론 (neocognitron)을 확장하는 모델 인 CNN (convolutional neural network)을 훈련하는 데 효과적이라는 것을 보여 주었다.

CNNs saw heavy use in the 1990s (e.g., [27]), but then fell out of fashion with the rise of support vector machines. In 2012, Krizhevsky et al. [25] rekindled interest in CNNs by showing substantially higher image classification accuracy on the ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [9, 10]. Their success resulted from training a large CNN on 1.2 million labeled images, together with a few twists on LeCun’s CNN (e.g., max(x, 0) rectifying non-linearities and “dropout” regularization).

CNN은 1990 년대에 과도한 사용을 보였지만 (예 : [27]), 지원 벡터 머신의 등장으로 패션에서 벗어났습니다. 2012 년 Krizhevsky et al. [25]는 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [9, 10]에서 상당히 높은 이미지 분류 정확도를 보여줌으로써 CNNs에 다시 관심을 보였다. 그들의 성공은 대형 CNN을 120 만개의 라벨이 붙은 이미지와 함께 LeCun의 CNN (예 : max (x, 0) 정류 비선형 성 및 "드롭 아웃"정규화)과 함께 몇 가지 트위스트와 함께 교육 한 결과입니다.

The significance of the ImageNet result was vigorously debated during the ILSVRC 2012 workshop. The central issue can be distilled to the following: To what extent do the CNN classification results on ImageNet generalize to object detection results on the PASCAL VOC Challenge?

ImageNet 결과의 중요성은 ILSVRC 2012 워크샵에서 활발하게 논의되었습니다. 중심 이슈는 다음과 같이 추출 될 수 있습니다 : ImageNet에서 CNN 분류 결과가 파스칼 VOC 챌린지에서 물체 감지 결과를 어느 정도까지 일반화 할 수 있습니까?

We answer this question by bridging the gap between image classification and object detection. This paper is the first to show that a CNN can lead to dramatically higher object detection performance on PASCAL VOC as compared to systems based on simpler HOG-like features. To achieve this result, we focused on two problems: localizing objects with a deep network and training a high-capacity model with only a small quantity of annotated detection data.

우리는 이미지 분류와 물체 감지 사이의 갭을 메워이 질문에 답합니다. 이 논문은 CNN이 단순한 HOG와 유사한 특징을 기반으로하는 시스템에 비해 PASCAL VOC에서 훨씬 더 높은 물체 탐지 성능을 이끌어 낼 수 있다는 것을 최초로 보여줍니다. 이 결과를 달성하기 위해 우리는 두 가지 문제에 초점을 맞추 었습니다. 깊은 네트워크로 개체를 로컬 화하고 소량의 주석 처리 된 탐지 데이터로 대용량 모델을 교육했습니다.

Unlike image classification, detection requires localizing (likely many) objects within an image. One approach frames localization as a regression problem. However, work from Szegedy et al. [38], concurrent with our own, indicates that this strategy may not fare well in practice (they report a mAP of 30.5% on VOC 2007 compared to the 58.5% achieved by our method). An alternative is to build a sliding-window detector. CNNs have been used in this way for at least two decades, typically on constrained object categories, such as faces [32, 40] and pedestrians [35]. In order to maintain high spatial resolution, these CNNs typically only have two convolutional and pooling layers. We also considered adopting a sliding-window approach. However, units high up in our network, which has five convolutional layers, have very large receptive fields (195 × 195 pixels) and strides (32×32 pixels) in the input image, which makes precise localization within the sliding-window paradigm an open technical challenge

이미지 분류와는 달리, 이미지 내에서 (많은 경우) 객체를 현지화해야합니다. 하나의 접근법은 회귀 문제로 현지화를 구성합니다. 그러나, Szegedy et al. [38] 우리 자신과 동시에,이 전략이 실제로 실행되지 않을 수도 있음을 나타냅니다. (우리의 방법에 의해 달성 된 58.5 %와 비교하여 VOC 2007에서 30.5 %의 mAP를보고합니다). 또 다른 방법은 슬라이딩 윈도우 검출기를 만드는 것입니다. CNN은 적어도 20 년 동안 얼굴과 같은 제한된 객체 범주에서 일반적으로 사용되어왔다 [32,40]. 그리고 보행자 [35]. 높은 공간 해상도를 유지하기 위해, 이들 CNN은 전형적으로 단지 2 개의 콘볼 루션 및 풀링 계층만을 갖는다. 슬라이딩 윈도우 방식을 채택하는 것도 고려했습니다. 그러나 5 개의 컨볼 루션 레이어가있는 우리 네트워크의 높은 유닛은 입력 이미지에서 매우 큰 수용 필드 (195 × 195 픽셀)와 스트라이드 (32 × 32 픽셀)를 가지므로 슬라이딩 윈도우 패러다임 내에서 정확한 위치 파악이 가능합니다. 열린 기술적 도전

Instead, we solve the CNN localization problem by operating within the “recognition using regions” paradigm [21], which has been successful for both object detection [39] and semantic segmentation [5]. At test time, our method generates around 2000 category-independent region proposals for the input image, extracts a fixed-length feature vector from each proposal using a CNN, and then classifies each region with category-specific linear SVMs. We use a simple technique (affine image warping) to compute a fixed-size CNN input from each region proposal, regardless of the region’s shape. Figure 1 presents an overview of our method and highlights some of our results. Since our system combines region proposals with CNNs, we dub the method R-CNN: Regions with CNN features.

대신 우리는 "인식을 사용하는 영역"패러다임 [21] 내에서 동작함으로써 CNN 지역화 문제를 해결하며, 이는 객체 검출 [39]과 의미 론적 세분화 [5] 모두에 성공적이다. 테스트 시간에 우리의 방법은 입력 이미지에 대해 약 2000 개의 카테고리 독립적 인 지역 제안을 생성하고, CNN을 사용하여 각 제안서에서 고정 길이의 특징 벡터를 추출한 다음 각 지역을 범주 별 선형 SVM으로 분류합니다. 지역의 모양에 관계없이 각 지역 제안에서 고정 크기 CNN 입력을 계산하는 간단한 기술 (어필 이미지 워핑)을 사용합니다. 그림 1은 우리의 방법에 대한 개요를 제시하고 일부 결과를 강조 표시합니다. Google 시스템은 지역 제안을 CNN과 결합하므로 R-CNN : CNN 기능이있는 지역 방법이라는 제목을 붙였습니다.

In this updated version of this paper, we provide a headto-head comparison of R-CNN and the recently proposed OverFeat [34] detection system by running R-CNN on the 200-class ILSVRC2013 detection dataset. OverFeat uses a sliding-window CNN for detection and until now was the best performing method on ILSVRC2013 detection. We show that R-CNN significantly outperforms OverFeat, with a mAP of 31.4% versus 24.3%.

본 백서의 업데이트 된 버전에서는 200-class ILSVRC2013 탐지 데이터 세트에서 R-CNN을 실행하여 R-CNN과 최근에 제안 된 OverFeat [34] 탐지 시스템의 헤드 - 헤드 비교를 제공합니다. OverFeat는 탐지를 위해 슬라이딩 윈도우 CNN을 사용하며 지금까지 ILSVRC2013 탐지에서 가장 좋은 수행 방법이었습니다. 우리는 R-CNN이 OverFeat보다 월등히 뛰어나다는 것을 보여 주며, mAP는 31.4 %인데 비해 24.3 %입니다.

A second challenge faced in detection is that labeled data is scarce and the amount currently available is insufficient for training a large CNN. The conventional solution to this problem is to use unsupervised pre-training, followed by supervised fine-tuning (e.g., [35]). The second principle contribution of this paper is to show thatsupervised pre-training on a large auxiliary dataset (ILSVRC), followed by domainspecific fine-tuning on a small dataset (PASCAL), is an effective paradigm for learning high-capacity CNNs when data is scarce. In our experiments, fine-tuning for detection improves mAP performance by 8 percentage points. After fine-tuning, our system achieves a mAP of 54% on VOC 2010 compared to 33% for the highly-tuned, HOG-based deformable part model (DPM) [17, 20]. We also point readers to contemporaneous work by Donahue et al. [12], who show that Krizhevsky’s CNN can be used (without finetuning) as a blackbox feature extractor, yielding excellent performance on several recognition tasks including scene classification, fine-grained sub-categorization, and domain adaptation.

탐지에 직면 한 두 번째 과제는 라벨 데이터가 부족하고 현재 사용 가능한 금액이 대형 CNN을 교육하는 데 충분하지 않다는 것입니다. 이 문제에 대한 종래의 해결책은 감독되지 않은 사전 훈련을 사용하고 감독 된 미세 조정 (예 : [35])을 사용하는 것이다. 이 논문의 두 번째 기본 기여는 큰 보조 데이터 세트 (ILSVRC)에 대한 감독 사전 훈련과 작은 데이터 세트 (PASCAL)에 대한 도메인 특유의 미세 조정을 보여주는 것이고, 데이터가있을 때 대용량 CNN을 학습하는 효과적인 패러다임이다. 부족한. 우리의 실험에서 탐지를위한 미세 조정은 mAP 성능을 8 % 향상시킵니다. 미세 조정 후, 우리 시스템은 고도로 조율 ​​된 HOG 기반 변형 가능 부품 모델 (DPM)의 경우 33 %에 비해 VOC 2010에서 54 %의 mAP를 달성합니다 [17, 20]. 우리는 또한 독자들에게 Donahue 등의 동시 작업을 지적합니다. [12]는 Krizhevsky의 CNN이 블랙 박스 피쳐 추출기로 사용될 수 있음을 보여 주며 장면 분류, 세분화 된 하위 카테고리 화 및 도메인 적응을 포함한 여러 인식 작업에서 우수한 성능을 제공합니다.

Our system is also quite efficient. The only class-specific computations are a reasonably small matrix-vector product and greedy non-maximum suppression. This computational property follows from features that are shared across all categories and that are also two orders of magnitude lowerdimensional than previously used region features (cf. [39]).

우리 시스템은 또한 매우 효율적입니다. 클래스 별 계산은 합리적으로 작은 행렬 - 벡터 곱과 욕심이없는 비 - 최대 억제입니다. 이 계산 속성은 모든 범주에 걸쳐 공유되고 이전에 사용 된 영역 피쳐보다 2 배 더 작은 차원의 피쳐로부터 도출됩니다 (참조, [39]).

Understanding the failure modes of our approach is also critical for improving it, and so we report results from the detection analysis tool of Hoiem et al. [23]. As an immediate consequence of this analysis, we demonstrate that a simple bounding-box regression method significantly reduces mislocalizations, which are the dominant error mode.

우리의 접근 방식의 실패 모드를 이해하는 것은 또한 그것을 개선하는 데 중요합니다. 그래서 우리는 Hoiem 외의 탐지 분석 도구의 결과를보고합니다. [23]. 이 분석의 즉각적인 결과로서 간단한 경계 상자 회귀 방법이 우세한 오류 모드 인 mislocalizations을 크게 줄이는 것을 보여줍니다.

Before developing technical details, we note that because R-CNN operates on regions it is natural to extend it to the task of semantic segmentation. With minor modifications, we also achieve competitive results on the PASCAL VOC segmentation task, with an average segmentation accuracy of 47.9% on the VOC 2011 test set.

기술적 인 세부 사항을 개발하기 전에 R-CNN이 지역에서 작동하기 때문에 의미 론적 세분화 작업으로 확장하는 것이 당연합니다. 사소한 수정을 통해 VOC 2011 테스트 세트에서 평균 세분화 정확도가 47.9 % 인 PASCAL VOC 세분화 작업에 대한 경쟁력있는 결과도 얻습니다.

RCNN-Object_detection_system_overview.png

Figure 1: Object detection system overview. Our system (1) takes an input image, (2) extracts around 2000 bottom-up region proposals, (3) computes features for each proposal using a large convolutional neural network (CNN), and then (4) classifies each region using class-specific linear SVMs. R-CNN achieves a mean average precision (mAP) of 53.7% on PASCAL VOC 2010. For comparison, [39] reports 35.1% mAP using the same region proposals, but with a spatial pyramid and bag-of-visual-words approach. The popular deformable part models perform at 33.4%. On the 200-class ILSVRC2013 detection dataset, R-CNN’s mAP is 31.4%, a large improvement over OverFeat [34], which had the previous best result at 24.3%.

Object detection with R-CNN

ENG

KOR

Our object detection system consists of three modules. The first generates category-independent region proposals. These proposals define the set of candidate detections available to our detector. The second module is a large convolutional neural network that extracts a fixed-length feature vector from each region. The third module is a set of classspecific linear SVMs. In this section, we present our design decisions for each module, describe their test-time usage, detail how their parameters are learned, and show detection results on PASCAL VOC 2010-12 and on ILSVRC2013.

우리 물체 감지 시스템은 세 개의 모듈로 구성된다. 첫 번째 범주 독립적 인 영역 제안을 생성합니다. 이 제안은 우리의 검출기로 사용할 수 후보 탐지 세트를 정의합니다. 제 2 모듈은 각각의 영역에서 고정 된 길이의 특징 벡터를 추출 대규모 콘볼 루션 신경망이다. 세 번째 모듈은 클래스 특정 선형 SVM을의 집합입니다. 이 섹션에서는 각 모듈에 대한 우리의 디자인 결정을 제시 자신의 매개 변수를 배운 방법을 자신의 시험 시간 사용, 세부 사항을 설명하고, PASCAL VOC 2010-12에와 ILSVRC 2013 검출 결과를 보여줍니다.

Module design

ENG

KOR

Region proposals. A variety of recent papers offer methods for generating category-independent region proposals. Examples include: objectness [1], selective search [39], category-independent object proposals [14], constrained parametric min-cuts (CPMC) [5], multi-scale combinatorial grouping [3], and Cires¸an et al. [6], who detect mitotic cells by applying a CNN to regularly-spaced square crops, which are a special case of region proposals. While R-CNN is agnostic to the particular region proposal method, we use selective search to enable a controlled comparison with prior detection work (e.g., [39, 41]).

지역 제안. 최근 논문의 다양한 카테고리 독립적 인 영역 제안을 생성하는 방법을 제공합니다. 예는 다음과 같습니다 objectness [1], 선택적 검색 [39], 카테고리에 관계없이 객체의 제안 [14], 제약 파라 메트릭 분 컷 (CPMC) [5] 멀티 스케일 조합 그룹 [3], 그리고 Cires¸an 등 . [6], CNN을 적용하여 유사 분열 세포를 감지하는 사람들은 지역 제안의 특별한 경우 사각형 작물을 정기적으로 간격합니다. R-CNN은 특정 지역의 제안 방법에 무관하지만, 우리가 이전에 탐지 작업과 통제 비교를 가능하게 선택적 검색을 사용 (예를 들어, [39, 41]).

Feature extraction. We extract a 4096-dimensional feature vector from each region proposal using the Caffe [24] implementation of the CNN described by Krizhevsky et al. [25]. Features are computed by forward propagating a mean-subtracted 227 × 227 RGB image through five convolutional layers and two fully connected layers. We refer readers to [24, 25] for more network architecture details.

특징 추출. 우리는 CAFFE Krizhevsky 등에 의해 기술 된 CNN의 [24] 구현을 사용하여 각 지역의 제안에서 4096 차원 특징 벡터의 압축을 풉니 다. [25]. 기능은 앞으로 다섯 길쌈 층과 두 개의 완전히 연결 레이어를 통해 평균 뺀 227 × 227 RGB 이미지를 전파에 의해 계산된다. 우리는 더 많은 네트워크 아키텍처 자세한 내용은 [24, 25]에 독자를 참조하십시오.

In order to compute features for a region proposal, we must first convert the image data in that region into a form that is compatible with the CNN (its architecture requires inputs of a fixed 227 × 227 pixel size). Of the many possible transformations of our arbitrary-shaped regions, we opt for the simplest. Regardless of the size or aspect ratio of the candidate region, we warp all pixels in a tight bounding box around it to the required size. Prior to warping, we dilate the tight bounding box so that at the warped size there are exactly p pixels of warped image context around the original box (we use p = 16). Figure 2 shows a random sampling of warped training regions. Alternatives to warping are discussed in Appendix A.

영역 제안서 기능을 계산하기 위해, 우리는 먼저 CNN와 호환되는 형태로 해당 영역의 화상 데이터를 변환한다 (그 구조는 고정 된 227 × 227 픽셀 크기의 입력을 요구한다). 우리의 임의 형상 영역의 여러 가지 변형, 우리는 간단한 선택할. 상관없이 후보 영역의 크기 또는 종횡비, 우리는 필요한 크기로 약 꽉 바운딩 박스 내의 모든 픽셀을 휘게. 뒤틀린 크기로 정확하게 원래 상자 주위에 변형 된 이미지 컨텍스트의 페이지 픽셀이되도록 휨 이전에, 우리는 단단한 경계 상자를 팽창 (우리는 P = 16을 사용). 그림 2는 뒤틀린 교육 영역의 무작위 표본 추출을 보여줍니다. 워핑 대안은 부록 A에 설명

Test-time detection

ENG

KOR

At test time, we run selective search on the test image to extract around 2000 region proposals (we use selective search’s “fast mode” in all experiments). We warp each proposal and forward propagate it through the CNN in order to compute features. Then, for each class, we score each extracted feature vector using the SVM trained for that class. Given all scored regions in an image, we apply a greedy non-maximum suppression (for each class independently) that rejects a region if it has an intersection-overunion (IoU) overlap with a higher scoring selected region larger than a learned threshold.

시험 시간에, 우리는 (우리는 모든 실험에서 선택적 검색의 "고속 모드"를 사용) 약 2000 지역 제안을 추출하는 테스트 이미지에 선택적 검색을 실행합니다. 우리는 각 제안서 워프 포워드 기능을 계산하기 위해 CNN 통해 전파. 그런 다음, 각 클래스에 대해, 우리는 그 클래스에 대한 훈련 SVM을 사용하여 각 추출 된 특징 벡터 점수. 이미지의 모든 득점 영역을 감안할 때, 우리는 학습 된 임계 값보다 더 높은 점수 선택 영역과 교차 오버 노동 조합 (당신) 오버레이가있는 경우 영역을 거부하는 (독립적으로 각 클래스에 대한) 욕심이 아닌 최대 억제를 적용합니다.

Run-time analysis. Two properties make detection efficient. First, all CNN parameters are shared across all categories. Second, the feature vectors computed by the CNN are low-dimensional when compared to other common approaches, such as spatial pyramids with bag-of-visual-word encodings. The features used in the UVA detection system [39], for example, are two orders of magnitude larger than ours (360k vs. 4k-dimensional).

런타임 분석. 두 속성이 검출 효율적으로. 첫째, 모든 CNN 매개 변수는 모든 범주에서 공유됩니다. 둘째, CNN 의해 계산 특징 벡터는 주머니의 시각 워드 인코딩 공간 피라미드와 같은 다른 일반적인 방식에 비해 저 차원이다. UVA 검출 시스템 [39]에 사용되는 기능, 예를 들어, 큰 2 차의 크기보다 우리 (360K 대 4K 차원).

The result of such sharing is that the time spent computing region proposals and features (13s/image on a GPU or 53s/image on a CPU) is amortized over all classes. The only class-specific computations are dot products between features and SVM weights and non-maximum suppression. In practice, all dot products for an image are batched into a single matrix-matrix product. The feature matrix is typically 2000×4096 and the SVM weight matrix is 4096×N, where N is the number of classes.

이러한 공유의 결과는 (CPU에 GPU 또는 53S / 이미지 13S / 이미지) 지역의 제안과 기능을 계산 소요되는 시간은 모든 클래스에 걸쳐 상각된다는 것이다. 유일한 클래스 고유의 계산 기능과 SVM 무게와 비 최대 억제 사이의 도트 제품입니다. 실제로는, 이미지에 대한 모든 내적 단일 행렬 매트릭스 제품에 일괄된다. 기능 매트릭스 2000 × 4096이며, 일반적으로 SVM 가중치 행렬 N 클래스의 수 4096 × N이다.

This analysis shows that R-CNN can scale to thousands of object classes without resorting to approximate techniques, such as hashing. Even if there were 100k classes, the resulting matrix multiplication takes only 10 seconds on a modern multi-core CPU. This efficiency is not merely the result of using region proposals and shared features. The UVA system, due to its high-dimensional features, would be two orders of magnitude slower while requiring 134GB of memory just to store 100k linear predictors, compared to just 1.5GB for our lower-dimensional features.

이 분석은 R-CNN은 해싱 등의 대략적인 기술에 의존하지 않고 객체 클래스의 수천 확장 할 수 있음을 보여줍니다. 100K 클래스가 있었다하더라도, 결과적인 행렬 곱셈은 현대의 멀티 코어 CPU에 10 초 걸린다. 이 효율은 단지 영역 제안 및 공유 기능을 사용하여 결과 아니다. 우리의 낮은 차원 특징 단지 1.5GB에 비해 단지 100K 선형 예측을 저장하는 메모리를 요구하면서 1백34기가바이트 UVA 시스템은 높아 차원 특징으로 느린, 2 차의 크기 일 것이다.

It is also interesting to contrast R-CNN with the recent work from Dean et al. on scalable detection using DPMs and hashing [8]. They report a mAP of around 16% on VOC 2007 at a run-time of 5 minutes per image when introducing 10k distractor classes. With our approach, 10k detectors can run in about a minute on a CPU, and because no approximations are made mAP would remain at 59% (Section 3.2).

딘 등의 등의 최근 연구와 R-CNN을 대비하는 것도 재미있다. 확장 검출에 DPMS를 사용하여 [8] 해싱. 10,000 distractor 클래스를 도입 할 때 그들은 이미지 당 5 분 실행 시간에 VOC 2007 년 약 16 %의지도를보고합니다. 우리의 접근 방식, 10,000 검출기는 CPU에 분 정도에서 실행할 수 있으며 더 근사치하지 않기 때문에지도는 59 % (3.2 절)에 남아있을 것입니다.

Training

ENG

KOR

Supervised pre-training. We discriminatively pre-trained the CNN on a large auxiliary dataset (ILSVRC2012 classification) using image-level annotations only (boundingbox labels are not available for this data). Pre-training was performed using the open source Caffe CNN library [24]. In brief, our CNN nearly matches the performance of Krizhevsky et al. [25], obtaining a top-1 error rate 2.2 percentage points higher on the ILSVRC2012 classification validation set. This discrepancy is due to simplifications in the training process.

사전 교육을 감독. 우리는 간 차별화 전용 이미지 수준의 주석을 사용하여 많은 보조 데이터 세트 (ILSVRC2012 분류)에 CNN을 미리 훈련 (BoundingBox의 레이블이 데이터를 사용할 수 없습니다). 사전 교육은 오픈 소스 CAFFE CNN 라이브러리 [24]을 사용 하였다. 간단히 말해서, 우리의 CNN은 거의 Krizhevsky 등의 알의 성능을 일치합니다. [25], ILSVRC2012 분류 검증 세트에 높은 상위 1 오류율 2.2 % 포인트를 얻을 수있다. 이러한 불일치는 교육 과정의 단순화에 기인한다.

Domain-specific fine-tuning. To adapt our CNN to the new task (detection) and the new domain (warped proposal windows), we continue stochastic gradient descent (SGD) training of the CNN parameters using only warped region proposals. Aside from replacing the CNN’s ImageNetspecific 1000-way classification layer with a randomly initialized (N + 1)-way classification layer (where N is the number of object classes, plus 1 for background), the CNN architecture is unchanged. For VOC, N = 20 and for ILSVRC2013, N = 200. We treat all region proposals with ≥ 0.5 IoU overlap with a ground-truth box as positives for that box’s class and the rest as negatives. We start SGD at a learning rate of 0.001 (1/10th of the initial pre-training rate), which allows fine-tuning to make progress while not clobbering the initialization. In each SGD iteration, we uniformly sample 32 positive windows (over all classes) and 96 background windows to construct a mini-batch of size 128. We bias the sampling towards positive windows because they are extremely rare compared to background.

도메인 별 미세 조정. 새 작업 (검출) 및 새 도메인 (뒤틀린 제안서 창) 우리 CNN에 적응하기 위해, 우리는 뒤틀린 지역의 제안을 사용하여 CNN 매개 변수의 확률 기울기 하강 (SGD) 훈련을 계속합니다. 외에도 (N은 객체 클래스의 수 플러스 배경 1) 임의로 초기화 (N + 1) 웨이 분류 층 CNN의 ImageNetspecific 1000 웨이 분류 층 교체로부터 CNN 구조는 변하지 않는다. VOC를 들어, = 20 ILSVRC 2013 N200에 대한 N. 우리는 상자의 클래스 긍정적으로 지상 진실 상자와 네거티브로 나머지 ≥ 0.5 IOU 중복 모든 영역 제안을 취급합니다. 우리는 초기화를 건드리지 않으면 서 미세 조정이 진행을 할 수 0.001의 학습 속도 (초기 사전 훈련 속도의 1 / 10)에서 SGD를 시작합니다. 그들은 배경에 비해 매우 희귀하기 때문에 각 SGD 반복에서, 우리는 우리가 긍정적 인 창으로 샘플링을 바이어스 크기 128의 미니 배치를 구성하기 위해 샘플을 (모든 클래스 이상) 32 개의 긍정적 인 창 96 배경 창에 균일.

Object category classifiers. Consider training a binary classifier to detect cars. It’s clear that an image region tightly enclosing a car should be a positive example. Similarly, it’s clear that a background region, which has nothing to do with cars, should be a negative example. Less clear is how to label a region that partially overlaps a car. We resolve this issue with an IoU overlap threshold, below which regions are defined as negatives. The overlap threshold, 0.3, was selected by a grid search over {0, 0.1, . . . , 0.5} on a validation set. We found that selecting this threshold carefully is important. Setting it to 0.5, as in [39], decreased mAP by 5 points. Similarly, setting it to 0 decreased mAP by 4 points. Positive examples are defined simply to be the ground-truth bounding boxes for each class.

개체 카테고리 분류. 차를 검출하는 이진 분류를 훈련보십시오. 그것은 꽉 차를 둘러싸는 이미지 영역이 긍정적 인 예를해야한다고 분명하다. 유사하게, 자동차와 무관 배경 영역은, 예를 제외해야한다는 분명하다. 덜 분명 부분적으로 차를 중첩 영역을 레이블하는 방법이다. 우리는 영역이 네거티브로 정의되는 아래 IOU 오버랩 임계 값과이 문제를 해결. 중복 임계 값 0.3은, {0, 0.1 이상 그리드 검색에 의해 선정되었다. . . 검증 세트, 0.5}. 우리는주의 깊게이 임계 값을 선택하는 것이 중요하다는 것을 발견했다. 와 같이 0.5로 설정 [39], 5 포인트 맵을 감소시켰다. 마찬가지로, 0으로 설정하면 4 포인트에 의한 감소했다. 긍정적 인 예는 각 클래스의 경계 상자 지상 진리로 간단하게 정의된다.

Once features are extracted and training labels are applied, we optimize one linear SVM per class. Since the training data is too large to fit in memory, we adopt the standard hard negative mining method [17, 37]. Hard negative mining converges quickly and in practice mAP stops increasing after only a single pass over all images.

기능이 추출 및 교육 라벨이 적용되면, 우리는 클래스 당 하나의 선형 SVM을 최적화 할 수 있습니다. 훈련 데이터가 메모리에 비해 너무 크기 때문에, 우리는 표준 하드 부정적인 마이닝 방법 [17, 37]을 채택한다. 하드 부정적인 마이닝은 신속하고 실제로 수렴지도는 모든 이미지를 통해 단 하나의 패스를 증가하지 않습니다.

In Appendix B we discuss why the positive and negative examples are defined differently in fine-tuning versus SVM training. We also discuss the trade-offs involved in training detection SVMs rather than simply using the outputs from the final softmax layer of the fine-tuned CNN.

양극과 음극 예 SVM 훈련에 비해 미세 조정에 다르게 정의하는 이유 부록 B에서 우리는 토론한다. 우리는 또한 단순히 미세 조정 CNN의 최종 softmax를 계층에서 출력을 사용하는 것보다 훈련 검출 SVM을에 관련된 장단점에 대해 설명합니다.

Results on PASCAL VOC 2010-12

ENG

KOR

Following the PASCAL VOC best practices [15], we validated all design decisions and hyperparameters on the VOC 2007 dataset (Section 3.2). For final results on the VOC 2010-12 datasets, we fine-tuned the CNN on VOC 2012 train and optimized our detection SVMs on VOC 2012 trainval. We submitted test results to the evaluation server only once for each of the two major algorithm variants (with and without bounding-box regression).

파스칼 VOC 모범 사례 [15]에 따라, 우리는 VOC 2007 데이터 세트 (3.2 절)에 대한 모든 설계 결정과 하이퍼 파라미터를 검증. VOC 2010-12 데이터 세트에 대한 최종 결과를 위해, 우리는 VOC 2012 기차 CNN을 미세 조정 및 VOC 2012 trainval 우리 감지 SVM을 최적화. 우리는 (와 바운딩 박스 회귀)없이 한번만 두 가지 알고리즘 변형 각 서버 평가 시험 결과를 제출 하였다.

Table 1 shows complete results on VOC 2010. We compare our method against four strong baselines, including SegDPM [18], which combines DPM detectors with the output of a semantic segmentation system [4] and uses additional inter-detector context and image-classifier rescoring. The most germane comparison is to the UVA system from Uijlings et al. [39], since our systems use the same region proposal algorithm. To classify regions, their method builds a four-level spatial pyramid and populates it with densely sampled SIFT, Extended OpponentSIFT, and RGBSIFT descriptors, each vector quantized with 4000-word codebooks. Classification is performed with a histogram intersection kernel SVM. Compared to their multi-feature, non-linear kernel SVM approach, we achieve a large improvement in mAP, from 35.1% to 53.7% mAP, while also being much faster (Section 2.2). Our method achieves similar performance (53.3% mAP) on VOC 2011/12 test.

표 1은 우리가 의미 분할 시스템 [4]의 출력과 DPM 감지기를 결합하고 추가 간 검출기 컨텍스트 및 이미지 분류를 사용 SegDPM [18], 등 4 강한베이스 라인,에 우리의 방법을 비교 VOC 2010 년에 전체 결과를 보여줍니다 rescoring. 가장 밀접한 비교 Uijlings 등의 알에서 UVA 시스템이다. [39], 우리의 시스템은 동일한 지역 제안 알고리즘을 사용하기 때문이다. 지역을 분류하기 위해 그들의 방법은 4 단계 공간 피라미드를 구축하고 조밀하게 샘플링 SIFT, 확장 상대의 SIFT, 및 RGB SIFT 기술자, 4000 단어 코드북에 양자화 각 벡터를 채 웁니다. 분류 히스토그램 교차 커널 SVM 행한다. 훨씬 더 빨리 (섹션 2.2)하면서 그 멀티 기능 비선형 커널 SVM 방법에 비해, 우리는 53.7 % 맵에 35.1 %에서지도의 큰 향상을 달성한다. 우리의 방법은 휘발성 유기 화합물 (VOC) 2011/12 시험에서 비슷한 성능 (53.3 % 맵)을 달성한다.

Results on ILSVRC2013 detection

ENG

KOR

We ran R-CNN on the 200-class ILSVRC2013 detection dataset using the same system hyperparameters that we used for PASCAL VOC. We followed the same protocol of submitting test results to the ILSVRC2013 evaluation server only twice, once with and once without bounding-box regression.

우리는 우리가 PASCAL VOC에 사용 된 것과 같은 시스템 하이퍼 파라미터를 사용하여 200 급 ILSVRC 2013 검출 데이터 세트에 R-CNN을 달렸다. 우리는 한 번에 한 번 경계 박스 회귀하지 않고, 단지 두 번 ILSVRC 2013 평가 서버에 테스트 결과를 제출 동일한 프로토콜을 따랐다.

Figure 3 compares R-CNN to the entries in the ILSVRC 2013 competition and to the post-competition OverFeat result [34]. R-CNN achieves a mAP of 31.4%, which is significantly ahead of the second-best result of 24.3% from OverFeat. To give a sense of the AP distribution over classes, box plots are also presented and a table of perclass APs follows at the end of the paper in Table 8. Most of the competing submissions (OverFeat, NEC-MU, UvAEuvision, Toronto A, and UIUC-IFP) used convolutional neural networks, indicating that there is significant nuance in how CNNs can be applied to object detection, leading to greatly varying outcomes.

그림 3은 ILSVRC 2013 경쟁과 포스트 경쟁 OverFeat 결과 [34]에 항목에 R-CNN을 비교합니다. R-CNN이 크게 앞서 OverFeat에서 24.3 %로 두 번째로 최고의 결과 인 31.4 %의지도를 얻을 수있다. 클래스를 통해 AP 분포의 감각을 제공하기 위해, 박스 플롯도 제공하고 perclass 액세스 포인트의 표는 표 용지의 끝 부분에 다음과 경쟁 제출 (OverFeat, NEC-MU, UvAEuvision, 토론토 8. 대부분, 및 UIUC-IFP)는 CNNs 크게 변화하는 결과를 초래 검출 객체에 적용 할 수있는 방식에 상당한 뉘앙스가있는 것을 나타내는, 콘벌 루션 신경망을 사용 하였다.

In Section 4, we give an overview of the ILSVRC2013 detection dataset and provide details about choices that we made when running R-CNN on it.

제 4 절에서 우리는 ILSVRC2013 검출 데이터 세트의 개요를 제공하고 그것에 R-CNN을 실행할 때 우리가 만든 선택에 대한 자세한 정보를 제공합니다.

Visualization, ablation, and modes of error

Visualizing learned features

ENG

KOR

First-layer filters can be visualized directly and are easy to understand [25]. They capture oriented edges and opponent colors. Understanding the subsequent layers is more challenging. Zeiler and Fergus present a visually attractive deconvolutional approach in [42]. We propose a simple (and complementary) non-parametric method that directly shows what the network learned.

첫 번째 계층 필터를 직접 시각화하고 이해하기 쉽게 할 수있다 [25]. 그들은 지향 가장자리와 상대 색상을 캡처합니다. 다음 층을 이해하는 것은 더 어렵습니다. ZEILER 및 퍼거스는 [42]에서 시각적으로 매력적인 deconvolutional 접근 방법을 제시한다. 우리는 직접 네트워크가 배운 것을 보여주는 간단한 (보완) 비모수 적 방법을 제안한다.

The idea is to single out a particular unit (feature) in the network and use it as if it were an object detector in its own right. That is, we compute the unit’s activations on a large set of held-out region proposals (about 10 million), sort the proposals from highest to lowest activation, perform nonmaximum suppression, and then display the top-scoring regions. Our method lets the selected unit “speak for itself” by showing exactly which inputs it fires on. We avoid averaging in order to see different visual modes and gain insight into the invariances computed by the unit.

아이디어는 네트워크에서 특정 부 (기능)를 지목하고 그 자체 대상 검지부 것처럼 사용하는 것이다. 즉, 우리는 열린 아웃 영역 제안의 큰 세트 기기의 활성화를 계산한다 (약 10 만 달러), 가장 낮은 활성화에 가장 높은에서 제안을 정렬 비 최대 억제를 수행하고 최고 점수 영역을 표시합니다. 우리의 방법은 화재에 입력을 정확하게 표시하여 선택한 장치 "자체에 대한 이야기​​를"할 수 있습니다. 우리는 다른 시각 모드를보고 단위로 계산 불변성에 대한 통찰력을 얻기 위해 평균 마십시오.

We visualize units from layer pool5 , which is the maxpooled output of the network’s fifth and final convolutional layer. The pool5 feature map is 6 × 6 × 256 = 9216 dimensional. Ignoring boundary effects, each pool5 unit has a receptive field of 195×195 pixels in the original 227×227 pixel input. A central pool5 unit has a nearly global view, while one near the edge has a smaller, clipped support.

우리는 네트워크의 다섯 번째이자 마지막 길쌈 층의 최대 풀 출력 층 pool5에서 단위를 시각화. pool5 기능지도는 6 × 6 × 256 = 9216 차원이다. 경계 효과를 무시하고, 각 pool5 단위는 원래 227 × 227 픽셀 입력에 195 × 195 픽셀의 수용 필드가 있습니다. 가장자리 근처에 하나는 작은 클립 지원을하고있는 동안 중앙 pool5 유닛은 거의 글로벌 볼 수있다.

Each row in Figure 4 displays the top 16 activations for a pool5 unit from a CNN that we fine-tuned on VOC 2007 trainval. Six of the 256 functionally unique units are visualized (Appendix D includes more). These units were selected to show a representative sample of what the network learns. In the second row, we see a unit that fires on dog faces and dot arrays. The unit corresponding to the third row is a red blob detector. There are also detectors for human faces and more abstract patterns such as text and triangular structures with windows. The network appears to learn a representation that combines a small number of class-tuned features together with a distributed representation of shape, texture, color, and material properties. The subsequent fully connected layer fc6 has the ability to model a large set of compositions of these rich features.

우리는 VOC 2007 trainval에 미세 조정 CNN에서 pool5 장치 그림의 각 행은 4 표시 상단 (16) 활성화를. 256 기능적으로 고유 유닛 중 6 (부록 D 더 포함) 시각입니다. 이러한 장치는 네트워크가 학습 내용의 대표 샘플을 보여주기 위해 선택되었다. 두 번째 행에서, 우리는 개 얼굴과 도트 배열에 발사 장치를 참조하십시오. 세 번째 행에 대응 부는 적색 얼룩 검출부이다. 인간의 얼굴과 같은 창에 텍스트와 삼각형 구조로보다 추상적 인 패턴 탐지기도 있습니다. 네트워크는 모양, 질감, 색상 및 재료 특성의 분산 표현과 함께 클래스 조정 기능의 소수를 결합하는 표현을 배울 나타납니다. 이후 완전히 연결 층 FC6 이러한 다양한 기능의 조성물의 큰 집합을 모델링하는 능력을 갖는다.

Ablation studies

ENG

KOR

Performance layer-by-layer, without fine-tuning. To understand which layers are critical for detection performance, we analyzed results on the VOC 2007 dataset for each of the CNN’s last three layers. Layer pool5 was briefly described in Section 3.1. The final two layers are summarized below.

성능 층으로 층, 미세 조정없이. 검출 성능에 중요한 레이어를 이해하기 위해, 우리는 CNN의 마지막 3 개의 층으로 각각 VOC 2007 데이터 세트 결과를 분석 하였다. 레이어 pool5 간단히 3.1 절에 설명했다. 마지막 두 층 아래에​​ 요약되어 있습니다.

Layer fc6 is fully connected to pool5 . To compute features, it multiplies a 4096×9216 weight matrix by the pool5 feature map (reshaped as a 9216-dimensional vector) and then adds a vector of biases. This intermediate vector is component-wise half-wave rectified (x ← max(0, x)).

레이어 FC6은 pool5에 완전히 연결된다. 기능을 계산하기 위해, (9216 차원 벡터로 재 성형) pool5 기능 맵 4096 × 9216 가중 행렬을 승산하고 바이어스의 벡터를 추가한다. 이 중간 벡터 성분이 많다는 반파 정류 (X ← 최대 (0, x)를)입니다.

Layer fc7 is the final layer of the network. It is implemented by multiplying the features computed by fc6 by a 4096 × 4096 weight matrix, and similarly adding a vector of biases and applying half-wave rectification.

계층 FC7 네트워크의 최종 층이다. 이것은 4096 × 4096 중량 행렬 FC6 의해 계산 기능을 곱한 마찬가지로 바이어스의 벡터를 가산 및 반파 정류를인가함으로써 구현된다.

We start by looking at results from the CNN without fine-tuning on PASCAL, i.e. all CNN parameters were pre-trained on ILSVRC 2012 only. Analyzing performance layer-by-layer (Table 2 rows 1-3) reveals that features from fc7 generalize worse than features from fc6. This means that 29%, or about 16.8 million, of the CNN’s parameters can be removed without degrading mAP. More surprising is that removing both fc7 and fc6 produces quite good results even though pool5 features are computed using only 6% of the CNN’s parameters. Much of the CNN’s representational power comes from its convolutional layers, rather than from the much larger densely connected layers. This finding suggests potential utility in computing a dense feature map, in the sense of HOG, of an arbitrary-sized image by using only the convolutional layers of the CNN. This representation would enable experimentation with sliding-window detectors, including DPM, on top of pool5 features.

우리는 파스칼에 미세 조정없이 CNN 결과를보고 시작, 즉 모든 CNN 매개 변수는 ILSVRC 2012 만에 사전 훈련을했다. (표 2 행 1-3) 성능 계층별로 레이어를 분석하는 것은 FC7에서 기능 FC6에서 기능보다 더 일반화 것을 알 수있다. 이것은 CNN의 파라미터 29 %, 또는 약 16.8이 맵 저하시키지 않고 제거 할 수 있다는 것을 의미한다. 더 놀라운 제거 모두 FC7과 FC6가 pool5 기능이 CNN의 매개 변수의 6 %를 사용하여 계산에도 불구하고 꽤 좋은 결과를 얻을 수 있다는 것입니다. CNN의 표현 전력의 대부분은 길쌈 층에서보다는 훨씬 더 조밀하게 연결 층에서 온다. 이 발견은 CNN의 컨벌루션 층을 사용하여 임의의 크기의 이미지는, 돼지의 관점에서, 고밀도 피쳐 맵을 계산하는 잠재적 인 유틸리티를 제시한다. 이 표현은 pool5 기능의 상단에 DPM을 포함한 슬라이딩 창 감지기,와 실험을 가능하게합니다.

Performance layer-by-layer, with fine-tuning. We now look at results from our CNN after having fine-tuned its parameters on VOC 2007 trainval. The improvement is striking (Table 2 rows 4-6): fine-tuning increases mAP by 8.0 percentage points to 54.2%. The boost from fine-tuning is much larger for fc6 and fc7 than for pool5 , which suggests that the pool5 features learned from ImageNet are general and that most of the improvement is gained from learning domain-specific non-linear classifiers on top of them.

성능 층으로 층, 미세 조정과 함께. 우리는 지금 VOC 2007 trainval에 미세 조정 매개 변수를 가진 후 우리의 CNN 결과를 보면. 개선 (표 2 행 4-6)에 비춰지고 있습니다 : 미세 조정은 54.2 %로 8.0 % 포인트 맵을 증가시킨다. 미세 조정에서 부스트는 pool5 기능 ImageNet에서 배운 일반적이며, 개선의 대부분이 그들 위에 특정 영역 비선형 분류 학습에서 얻은 것을 제안하는 pool5보다 FC6 및 FC7 훨씬 더 크다.

Comparison to recent feature learning methods. Relatively few feature learning methods have been tried on PASCAL VOC detection. We look at two recent approaches that build on deformable part models. For reference, we also include results for the standard HOG-based DPM [20].

최근 기능 학습 방법을 비교. 상대적으로 적은 기능 학습 방법은 PASCAL VOC 검출을 시도하고있다. 우리는 변형 부품 모델 구축이 최근의 접근 방법을 확인합니다. 참고로, 우리는 또한 표준 HOG 기반 DPM [20]의 결과를 포함한다.

The first DPM feature learning method, DPM ST [28], augments HOG features with histograms of “sketch token” probabilities. Intuitively, a sketch token is a tight distribution of contours passing through the center of an image patch. Sketch token probabilities are computed at each pixel by a random forest that was trained to classify 35×35 pixel patches into one of 150 sketch tokens or background.

첫 번째 DPM이 방법을 학습 기능, DPM ST는 [28] "스케치 토큰"확률의 히스토그램과 HOG 기능을 확장합니다. 직관적 스케치 토큰은 이미지 패치의 중심을 통과 윤곽 꽉 분포이다. 스케치 토큰 확률은 150 스케치 토큰 또는 배경 중 하나에 35 × 35 픽셀 패치를 분류하도록 훈련 된 임의의 숲 각각의 픽셀에서 계산된다.

The second method, DPM HSC [31], replaces HOG with histograms of sparse codes (HSC). To compute an HSC, sparse code activations are solved for at each pixel using a learned dictionary of 100 7 × 7 pixel (grayscale) atoms. The resulting activations are rectified in three ways (full and both half-waves), spatially pooled, unit `2 normalized, and then power transformed (x ← sign(x)|x|α).

두 번째 방법, DPM HSC [31], 스파 스 코드 (HSC)의 히스토그램과 HOG을 대체합니다. HSC를 계산하기 위해, 스파 스 코드 활성화는 각 픽셀에서 100 7 × 7 픽셀 (그레이 스케일) 원자의 학습 사전을 사용하기위한 해결된다. (| X | α X ← 기호 (X)) 결과 활성화가 공간적으로 풀링 세 가지 방법 (전체 반 ​​파도 모두), 단위`2 정규화 한 다음 전원 변환에 정류한다.

All R-CNN variants strongly outperform the three DPM baselines (Table 2 rows 8-10), including the two that use feature learning. Compared to the latest version of DPM, which uses only HOG features, our mAP is more than 20 percentage points higher: 54.2% vs. 33.7%—a 61% relative improvement. The combination of HOG and sketch tokens yields 2.5 mAP points over HOG alone, while HSC improves over HOG by 4 mAP points (when compared internally to their private DPM baselines—both use nonpublic implementations of DPM that underperform the open source version [20]). These methods achieve mAPs of 29.1% and 34.3%, respectively

모든 R-CNN 강력히 기능 학습을 사용하는 두 가지를 포함하여 세 DPM 기준선 (표 2 행 8-10)를 능가 변형. 만 HOG 기능을 사용하여 DPM의 최신 버전에 비해, 우리의지도는 20 % 포인트 높다 : 33.7 % -a 61 % 상대 개선 54.2 % 대. HSC 4지도 포인트 HOG을 통해 개선하면서 HOG 및 스케치 토큰의 조합은, 혼자 HOG을 통해 2.5지도 포인트를 얻을 수 (내부적으로 자신의 개인 DPM의에 비해베이스 라인-모두​​ 오픈 소스 버전 수익률 DPM의 비공개 구현을 사용 [20]) . 이러한 방법은 각각 29.1 %와 34.3 %의지도를 달성

Network architectures

ENG

KOR

Most results in this paper use the network architecture from Krizhevsky et al. [25]. However, we have found that the choice of architecture has a large effect on R-CNN detection performance. In Table 3 we show results on VOC 2007 test using the 16-layer deep network recently proposed by Simonyan and Zisserman [43]. This network was one of the top performers in the recent ILSVRC 2014 classification challenge. The network has a homogeneous structure consisting of 13 layers of 3 × 3 convolution kernels, with five max pooling layers interspersed, and topped with three fully-connected layers. We refer to this network as “O-Net” for OxfordNet and the baseline as “T-Net” for TorontoNet.

이 논문에서 대부분의 결과는 Krizhevsky 등의 알에서 네트워크 아키텍처를 사용합니다. [25]. 그러나 아키텍처의 선택은 R-CNN 검출 성능에 큰 영향을 발견했다. 표 3에서 우리는 최근에 Simonyan 및 Zisserman [43]에 의해 제안 된 16 층 깊은 네트워크를 사용하는 휘발성 유기 화합물 (VOC) 2007 테스트에 대한 결과를 보여줍니다. 이 네트워크는 최근 ILSVRC 2014 분류 도전에서 최고의 공연 중 하나였다. 네트워크는 산재 다섯 최대 풀링 층과 3 × 3 회선 커널의 13 층으로 이루어진 균일 한 구조를 가지고 있으며, 세 개의 완전히 연결된 레이어를 차지했다. 우리는 OxfordNet은 "O-넷"토론토 다음은 "T-인터넷"로 기준으로이 네트워크를 참조하십시오.

To use O-Net in R-CNN, we downloaded the publicly available pre-trained network weights for the VGG ILSVRC 16 layers model from the Caffe Model Zoo.1 We then fine-tuned the network using the same protocol as we used for T-Net. The only difference was to use smaller minibatches (24 examples) as required in order to fit within GPU memory. The results in Table 3 show that RCNN with O-Net substantially outperforms R-CNN with TNet, increasing mAP from 58.5% to 66.0%. However there is a considerable drawback in terms of compute time, with the forward pass of O-Net taking roughly 7 times longer than T-Net.

R-CNN에 O-인터넷을 사용하기 위해, 우리는 우리가 다음 우리가 T에 사용되는 것과 동일한 프로토콜을 사용하여 네트워크를 미세 조정 CAFFE 모델 Zoo.1에서 VGG ILSVRC 16 층 모델에 대한 공개 사전 훈련 네트워크 가중치를 다운로드 -그물. 유일한 차이는 GPU 메모리 내에 맞추기 위해 필요한 작은 소형 배치 (예 24)를 사용 하였다. 테이블의 결과 O-순으로 RCNN이 실질적으로 66.0 %로 58.5 %에서지도를 증가 TNet와 R-CNN을 능가 3은. 그러나 계산 시간의 측면에서 상당한 단점은 T-인터넷보다 긴 약 7 시간을 복용 O-넷의 전진 패스,있다.

Detection error analysis

ENG

KOR

We applied the excellent detection analysis tool from Hoiem et al. [23] in order to reveal our method’s error modes, understand how fine-tuning changes them, and to see how our error types compare with DPM. A full summary of the analysis tool is beyond the scope of this paper and we encourage readers to consult [23] to understand some finer details (such as “normalized AP”). Since the analysis is best absorbed in the context of the associated plots, we present the discussion within the captions of Figure 5 and Figure 6.

우리는 Hoiem 등의 알에서 뛰어난 탐지 분석 도구를 적용했다. 우리의 방법의 오류 모드를 공개 미세 조정이 그들을 변경하는 방법을 이해하고, 우리의 오류 유형은 DPM과 비교 방식을 볼 수하기 위해 [23]. 분석 도구의 전체 요약이 문서의 범위를 넘어 우리가 상담하는 독자를 격려 [23] (예 : "표준화 된 AP"와 같은) 일부 미세한 세부 사항을 이해합니다. 분석 가장 관련 플롯의 컨텍스트에서 흡수되기 때문에, 우리는도 5 및도 6의 자막 내 토론을 제시한다.

Bounding-box regression

ENG

KOR

Based on the error analysis, we implemented a simple method to reduce localization errors. Inspired by the bounding-box regression employed in DPM [17], we train a linear regression model to predict a new detection window given the pool5 features for a selective search region proposal. Full details are given in Appendix C. Results in Table 1, Table 2, and Figure 5 show that this simple approach fixes a large number of mislocalized detections, boosting mAP by 3 to 4 points.

에러 분석에 기초하여, 우리는 파악 오류를 줄일 수있는 간단한 방법을 구현 하였다. DPM [17]에 사용 된 경계 박스 회귀에 의해 영감을, 우리는 선택적 검색 영역 제안에 대한 pool5 기능 주어진 새로운 검색 창을 예측하는 선형 회귀 모델을 학습. 자세한 사항은 3 ~ 4 포인트 맵을 승압 표 1, 표 2, 간단한 접근법 mislocalized 탐지를 다수 해결하는 것이도 5는 부록 C. 결과에 주어진다.

Qualitative results

ENG

KOR

Qualitative detection results on ILSVRC2013 are presented in Figure 8 and Figure 9 at the end of the paper. Each image was sampled randomly from the val2 set and all detections from all detectors with a precision greater than 0.5 are shown. Note that these are not curated and give a realistic impression of the detectors in action. More qualitative results are presented in Figure 10 and Figure 11, but these have been curated. We selected each image because it contained interesting, surprising, or amusing results. Here, also, all detections at precision greater than 0.5 are shown

ILSVRC2013의 정성 검출 결과가 용지의 끝 부분에도 8 및도 9에 나타내었다. 각각의 이미지는 val2만큼 세트에서 무작위로 샘플링 및 정밀보다 0.5 모든 감지기의 모든 탐지가 표시됩니다. 이러한 선별되지 않도록주의하고 행동 감지기의 사실적인 느낌을 준다. 더 질적 결과는 그림 10과 그림 11에 제시되어있다, 그러나 이들은 큐레이터되었습니다. 이 재미 놀라운 또는 재미있는 결과를 포함하기 때문에 우리는 각각의 이미지를 선택했습니다. 여기서, 또한, 0.5보다 큰 정밀도를 전혀 탐지이 표시됩니다

Documentation

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
https://github.com/rbgirshick/rcnn
1311.2524v5.pdf

See also

References