Skip to content

MaskRCNN:Paper


Mask R-CNN
Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick

Mask R-CNN의 논문 번역.

Pre-defined References

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

Abstract

ENG

KOR

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, boundingbox object detection, and person keypoint detection. Without bells and whistles, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code has been made available at: https://github.com/facebookresearch/Detectron

객체 인스턴스 분할을위한 개념적으로 단순하고 유연하며 일반적인 프레임 워크를 제시합니다. 우리의 접근 방식은 이미지의 객체를 효율적으로 감지하는 동시에 각 인스턴스에 대해 고품질의 분할 마스크를 생성합니다. Mask R-CNN이라고하는이 방법은 경계 상자 인식을 위해 기존 분기와 병렬로 객체 마스크를 예측하기위한 분기를 추가하여 Faster R-CNN을 확장합니다. Mask R-CNN은 훈련이 쉽고 5fps로 실행되는 Faster R-CNN에 작은 오버 헤드 만 추가합니다. 또한 Mask R-CNN은 다른 작업으로 일반화하기가 쉽습니다. 예를 들어 동일한 프레임 워크에서 사람의 자세를 추정 할 수 있습니다. 인스턴스 세분화, 바운딩 박스 객체 탐지 및 개인 키포인트 탐지를 포함하여 COCO 과제 그룹의 세 가지 트랙 모두에서 최고의 결과를 보여줍니다. 종소리와 휘파람이 없으면 Mask R-CNN은 COCO 2016 챌린지 우승자를 포함하여 모든 작업에서 기존의 모든 단일 모델 항목을 능가합니다. 우리는 간단하고 효과적인 접근 방식이 탄탄한 기준선이되고 향후 인스턴스 수준의 인식 연구를 용이하게하기를 희망합니다. https://github.com/facebookresearch/Detectron 에서 코드를 사용할 수 있습니다.

1. Introduction

ENG

KOR

The vision community has rapidly improved object detection and semantic segmentation results over a short period of time. In large part, these advances have been driven by powerful baseline systems, such as the Fast/Faster RCNN4647 and Fully Convolutional Network (FCN) 48 frameworks for object detection and semantic segmentation, respectively. These methods are conceptually intuitive and offer flexibility and robustness, together with fast training and inference time. Our goal in this work is to develop a comparably enabling framework for instance segmentation.

비전 커뮤니티는 짧은 시간에 걸쳐 객체 감지 및 시맨틱 세그먼테이션 결과를 빠르게 개선했습니다. 대체로 이러한 발전은 각각 물체 감지 및 의미 체계적 분할을위한 Fast / Faster RCNN4950 및 FNN (Fully Convolutional Network) 51 프레임 워크와 같은 강력한 기본 시스템에 의해 이루어졌습니다. 이러한 방법은 개념적으로 직관적이며 빠른 교육 및 추론 시간과 함께 유연성과 견고성을 제공합니다. 이 작업의 목표는 예를 들어 세그먼트 화를위한 비교 가능한 프레임 워크를 개발하는 것입니다.

ENG

KOR

Instance segmentation is challenging because it requires the correct detection of all objects in an image while also precisely segmenting each instance. It therefore combines elements from the classical computer vision tasks of object detection, where the goal is to classify individual objects and localize each using a bounding box, and semantic segmentation, where the goal is to classify each pixel into a fixed set of categories without differentiating object instances.1 Given this, one might expect a complex method is required to achieve good results. However, we show that a surprisingly simple, flexible, and fast system can surpass prior state-of-the-art instance segmentation results.

인스턴스 세분화는 이미지의 모든 객체를 정확하게 감지하는 동시에 각 인스턴스를 정확하게 세분화해야하기 때문에 까다 롭습니다. 따라서 객체 감지의 고전적인 컴퓨터 비전 작업의 요소를 결합합니다. 여기서 목표는 개별 객체를 분류하고 경계 상자를 사용하여 각 객체를 지역화하는 것입니다. 의미 론적 분류는 각 픽셀을 구별하지 않고 고정 된 범주 세트로 분류하는 것입니다. 이를 감안할 때 좋은 결과를 얻으려면 복잡한 방법이 필요할 것으로 예상 할 수 있습니다. 그러나 놀랍도록 간단하고 유연하며 빠른 시스템이 기존의 최신 인스턴스 분할 결과를 능가 할 수 있음을 보여줍니다.

ENG

KOR

Our method, called Mask R-CNN, extends Faster R-CNN 52 by adding a branch for predicting segmentation masks on each Region of Interest (RoI), in parallel with the existing branch for classification and bounding box regression (Figure 1). The mask branch is a small FCN applied to each RoI, predicting a segmentation mask in a pixel-topixel manner. Mask R-CNN is simple to implement and train given the Faster R-CNN framework, which facilitates a wide range of flexible architecture designs. Additionally, the mask branch only adds a small computational overhead, enabling a fast system and rapid experimentation.

Mask R-CNN이라고하는이 방법은 분류 및 경계 상자 회귀 분석을위한 기존 분기와 동시에 각 관심 영역 (RoI)에서 분할 마스크를 예측하기위한 분기를 추가하여 더 빠른 R-CNN을 확장합니다 53 (그림 1). . 마스크 브랜치는 각각의 RoI에 적용되는 작은 FCN이며, 픽셀-픽셀 방식으로 세그먼트 화 마스크를 예측한다. 마스크 R-CNN은보다 유연한 R-CNN 프레임 워크를 통해 구현 및 교육이 간단하므로 광범위한 유연한 아키텍처 설계가 가능합니다. 또한 마스크 브랜치는 작은 계산 오버 헤드 만 추가하므로 빠른 시스템과 빠른 실험이 가능합니다.

ENG

KOR

In principle Mask R-CNN is an intuitive extension of Faster R-CNN, yet constructing the mask branch properly is critical for good results. Most importantly, Faster RCNN was not designed for pixel-to-pixel alignment between network inputs and outputs. This is most evident in how RoIPool5455, the de facto core operation for attending to instances, performs coarse spatial quantization for feature extraction. To fix the misalignment, we propose a simple, quantization-free layer, called RoIAlign, that faithfully preserves exact spatial locations. Despite being a seemingly minor change, RoIAlign has a large impact: it improves mask accuracy by relative 10% to 50%, showing bigger gains under stricter localization metrics. Second, we found it essential to decouple mask and class prediction: we predict a binary mask for each class independently, without competition among classes, and rely on the network’s RoI classification branch to predict the category. In contrast, FCNs usually perform per-pixel multi-class categorization, which couples segmentation and classification, and based on our experiments works poorly for instance segmentation.

원칙적으로 Mask R-CNN은 Faster R-CNN의 직관적 인 확장이지만 마스크 분기를 올바르게 구성하는 것은 좋은 결과를 위해 중요합니다. 가장 중요한 것은 Faster RCNN은 네트워크 입력과 출력 사이의 픽셀 간 정렬을 위해 설계되지 않았습니다. 이는 인스턴스에 참석하기위한 사실상의 핵심 작업 인 RoIPool5657이 특징 추출을 위해 거친 공간 양자화를 수행하는 방법에서 가장 분명합니다. 오정렬을 수정하기 위해, 정확한 공간 위치를 충실하게 보존하는 RoIAlign이라는 단순하고 양자화가없는 층을 제안합니다. 겉보기에는 사소한 변화에도 불구하고 RoIAlign은 큰 영향을 미칩니다. 마스크 정확도를 10 %에서 50 %로 향상시켜 엄격한 현지화 메트릭스에서 더 큰 이득을 보여줍니다. 둘째, 마스크와 클래스 예측을 분리하는 것이 필수적이라는 것을 알았습니다. 클래스 간 경쟁없이 각 클래스에 대한 이진 마스크를 독립적으로 예측하고 네트워크의 RoI 분류 분기를 사용하여 범주를 예측합니다. 대조적으로, FCN은 일반적으로 픽셀 단위 멀티 클래스 분류를 수행하는데,이 분류는 분류와 분류를 결합하며, 우리의 실험에 따르면 세그먼트 화에는 적합하지 않습니다.

ENG

KOR

Without bells and whistles, Mask R-CNN surpasses all previous state-of-the-art single-model results on the COCO instance segmentation task 58, including the heavilyengineered entries from the 2016 competition winner. As a by-product, our method also excels on the COCO object detection task. In ablation experiments, we evaluate multiple basic instantiations, which allows us to demonstrate its robustness and analyze the effects of core factors.

종소리와 휘파람이 없으면 Mask R-CNN은 2016 년 경쟁에서 우승 한 엔지니어를 포함하여 COCO 인스턴스 세분화 작업 59에 대한 모든 최신 최첨단 단일 모델 결과를 능가합니다. 부산물로서, 당사의 방법은 COCO 객체 탐지 작업에서도 탁월합니다. 절제 실험에서는 여러 기본 인스턴스화를 평가하여 견고성을 입증하고 핵심 요소의 영향을 분석 할 수 있습니다.

ENG

KOR

Our models can run at about 200ms per frame on a GPU, and training on COCO takes one to two days on a single 8-GPU machine. We believe the fast train and test speeds, together with the framework’s flexibility and accuracy, will benefit and ease future research on instance segmentation.

당사의 모델은 GPU에서 프레임 당 약 200ms로 실행될 수 있으며, 단일 8-GPU 시스템에서 COCO에 대한 교육은 1-2 일이 소요됩니다. 우리는 프레임 워크의 유연성 및 정확성과 함께 빠른 기차 및 테스트 속도가 인스턴스 세분화에 대한 미래의 연구에 도움이 될 것이라고 믿습니다.

ENG

KOR

Finally, we showcase the generality of our framework via the task of human pose estimation on the COCO keypoint dataset 60. By viewing each keypoint as a one-hot binary mask, with minimal modification Mask R-CNN can be applied to detect instance-specific poses. Mask R-CNN surpasses the winner of the 2016 COCO keypoint competition, and at the same time runs at 5 fps. Mask R-CNN, therefore, can be seen more broadly as a flexible framework for instance-level recognition and can be readily extended to more complex tasks. We have released code to facilitate future research.

마지막으로, 우리는 COCO 키포인트 데이터 셋에 대한 인간 포즈 추정 작업을 통해 프레임 워크의 일반성을 보여줍니다 61. 각 키포인트를 원-핫 이진 마스크로보고 최소한의 수정으로 마스크 R-CNN을 적용하여 인스턴스 별 포즈를 감지 할 수 있습니다. 마스크 R-CNN은 2016 COCO 키포인트 경쟁의 우승자를 능가하며 동시에 5fps로 실행됩니다. 따라서 마스크 R-CNN은 인스턴스 레벨 인식을위한 유연한 프레임 워크로보다 광범위하게 볼 수 있으며보다 복잡한 작업으로 쉽게 확장 될 수 있습니다. 향후 연구를 용이하게하는 코드를 출시했습니다.

ENG

KOR

R-CNN: The Region-based CNN (R-CNN) approach 62 to bounding-box object detection is to attend to a manageable number of candidate object regions6364 and evaluate convolutional networks6566 independently on each RoI. R-CNN was extended6768 to allow attending to RoIs on feature maps using RoIPool, leading to fast speed and better accuracy. Faster R-CNN 69 advanced this stream by learning the attention mechanism with a Region Proposal Network (RPN). Faster R-CNN is flexible and robust to many follow-up improvements (e.g.,707172), and is the current leading framework in several benchmarks.

R-CNN : 경계 상자 객체 탐지에 대한 지역 기반 CNN (R-CNN) 접근법 73은 관리 가능한 많은 후보 객체 영역7475에 참석하고 평가하는 것입니다. 각 RoI에서 독립적으로 회선 네트워크7677. R-CNN은 RoIPool을 사용하여 기능 맵에서 RoI에 참석할 수 있도록 확장되었으며7879, 빠른 속도와 정확성이 향상되었습니다. 빠른 R-CNN 80은 지역 제안 네트워크 (RPN)를 통해주의 메커니즘을 학습함으로써이 흐름을 발전시켰다. 더 빠른 R-CNN은 많은 후속 개선 (예 :818283)에 유연하고 강력하며 여러 벤치 마크에서 현재 주요 프레임 워크입니다.

ENG

KOR

Instance Segmentation: Driven by the effectiveness of RCNN, many approaches to instance segmentation are based on segment proposals. Earlier methods84858687 resorted to bottom-up segments8889. DeepMask 90 and following works9192 learn to propose segment candidates, which are then classified by Fast R-CNN. In these methods, segmentation precedes recognition, which is slow and less accurate. Likewise, Dai et al. 93 proposed a complex multiple-stage cascade that predicts segment proposals from bounding-box proposals, followed by classification. Instead, our method is based on parallel prediction of masks and class labels, which is simpler and more flexible.

인스턴스 세분화 : RCNN의 효과에 따라 인스턴스 세분화에 대한 많은 접근 방식이 세그먼트 제안을 기반으로합니다. 이전의 방법94959697은 상향식 세그먼트9899에 의존했다. DeepMask 100와 다음 작품101102은 세그먼트 후보 제안 방법을 익히고 Fast R-CNN으로 분류됩니다. 이 방법에서 분할은 인식보다 우선하며, 느리고 덜 정확합니다. 마찬가지로, Dai et al. 103은 경계 상자 제안에서 세그먼트 제안을 예측 한 다음 분류를 수행하는 복잡한 다단계 캐스케이드를 제안했다. 대신, 우리의 방법은 마스크와 클래스 레이블의 병렬 예측을 기반으로하며, 이는 더 간단하고 융통성이 있습니다.

ENG

KOR

Most recently, Li et al. 104 combined the segment proposal system in 105 and object detection system in 106 for “fully convolutional instance segmentation” (FCIS). The common idea in107108109 is to predict a set of positionsensitive output channels fully convolutionally. These channels simultaneously address object classes, boxes, and masks, making the system fast. But FCIS exhibits systematic errors on overlapping instances and creates spurious edges (Figure 6), showing that it is challenged by the fundamental difficulties of segmenting instances.

가장 최근에, Li et al. 110은“완전 컨 볼루 셔널 인스턴스 분할”(FCIS)을 위해 111의 세그먼트 제안 시스템과 112의 객체 탐지 시스템을 결합했습니다.113114115의 일반적인 아이디어는 위치 감지 출력 채널 세트를 완전히 컨볼 루션 방식으로 예측하는 것입니다. 이 채널은 동시에 객체 클래스, 박스 및 마스크를 처리하여 시스템을 빠르게 만듭니다. 그러나 FCIS는 겹치는 인스턴스에서 체계적인 오류가 발생하고 가짜 에지를 생성하여 (그림 6) 인스턴스 세그먼트의 근본적인 어려움으로 인해 어려움을 겪고 있음을 보여줍니다.

ENG

KOR

Another family of solutions116117118119 to instance segmentation are driven by the success of semantic segmentation. Starting from per-pixel classification results (e.g., FCN outputs), these methods attempt to cut the pixels of the same category into different instances. In contrast to the segmentation-first strategy of these methods, Mask R-CNN is based on an instance-first strategy. We expect a deeper incorporation of both strategies will be studied in the future.

인스턴스 세그먼테이션에 대한 또 다른 솔루션 제품군 (23, 4, 3, 29)은 시맨틱 세그먼테이션의 성공에 의해 주도됩니다. 픽셀 별 분류 결과 (예 : FCN 출력)에서 시작하여 이러한 방법은 동일한 범주의 픽셀을 다른 인스턴스로 자릅니다. 이러한 방법의 세분화 우선 전략과 달리 마스크 R-CNN은 인스턴스 우선 전략을 기반으로합니다. 우리는 두 전략의 통합이 앞으로 더 깊이 연구 될 것으로 기대합니다.

3. Mask R-CNN

ENG

KOR

Mask R-CNN is conceptually simple: Faster R-CNN has two outputs for each candidate object, a class label and a bounding-box offset; to this we add a third branch that outputs the object mask. Mask R-CNN is thus a natural and intuitive idea. But the additional mask output is distinct from the class and box outputs, requiring extraction of much finer spatial layout of an object. Next, we introduce the key elements of Mask R-CNN, including pixel-to-pixel alignment, which is the main missing piece of Fast/Faster R-CNN.

마스크 R-CNN은 개념적으로 간단합니다. 빠른 R-CNN은 각 후보 객체에 대해 클래스 레이블과 경계 상자 오프셋의 두 가지 출력이 있습니다. 여기에 객체 마스크를 출력하는 세 번째 분기를 추가합니다. 따라서 마스크 R-CNN은 자연스럽고 직관적 인 아이디어입니다. 그러나 추가 마스크 출력은 클래스 및 박스 출력과 다르므로 훨씬 미세한 객체의 공간 레이아웃 추출이 필요합니다. 다음으로 Fast / Faster R-CNN의 주요 누락 부분 인 픽셀 간 정렬을 포함하여 Mask R-CNN의 핵심 요소를 소개합니다.

ENG

KOR

Faster R-CNN: We begin by briefly reviewing the Faster R-CNN detector 120. Faster R-CNN consists of two stages. The first stage, called a Region Proposal Network (RPN), proposes candidate object bounding boxes. The second stage, which is in essence Fast R-CNN 121, extracts features using RoIPool from each candidate box and performs classification and bounding-box regression. The features used by both stages can be shared for faster inference. We refer readers to 122 for latest, comprehensive comparisons between Faster R-CNN and other frameworks.

Faster R-CNN : Faster R-CNN 검출기를 간단히 검토하는 것으로 시작합니다 123. 빠른 R-CNN은 두 단계로 구성됩니다. 지역 제안 네트워크 (RPN)라고하는 첫 번째 단계는 후보 객체 경계 상자를 제안합니다. 본질적으로 Fast R-CNN 124 인 두 번째 단계는 각 후보 상자에서 RoIPool을 사용하여 특징을 추출하고 분류 및 경계 상자 회귀를 수행합니다. 더 빠른 추론을 위해 두 단계에서 사용되는 기능을 공유 할 수 있습니다. Faster R-CNN과 다른 프레임 워크 간의 최신의 포괄적 인 비교는 독자에게 125을 참조하십시오.

ENG

KOR

Mask R-CNN: Mask R-CNN adopts the same two-stage procedure, with an identical first stage (which is RPN). In the second stage, in parallel to predicting the class and box offset, Mask R-CNN also outputs a binary mask for each RoI. This is in contrast to most recent systems, where classification depends on mask predictions (e.g.126127128). Our approach follows the spirit of Fast R-CNN 129 that applies bounding-box classification and regression in parallel (which turned out to largely simplify the multi-stage pipeline of original R-CNN 130).

마스크 R-CNN : 마스크 R-CNN은 동일한 1 단계 (RPN)와 동일한 2 단계 절차를 채택합니다. 두 번째 단계에서는 클래스 및 상자 오프셋 예측과 병행하여 Mask R-CNN은 각 RoI에 대한 이진 마스크를 출력합니다. 이것은 분류가 마스크 예측 (예 :131132133)에 의존하는 가장 최근의 시스템과 대조적입니다. 우리의 접근 방식은 바운딩 박스 분류와 회귀를 병렬로 적용하는 Fast R-CNN 134의 정신을 따릅니다 (원래 R-CNN의 다단계 파이프 라인을 크게 단순화하는 것으로 밝혀졌습니다 135).

ENG

KOR

Formally, during training, we define a multi-task loss on each sampled RoI as L = Lcls + Lbox + Lmask. The classification loss Lcls and bounding-box loss Lbox are identical as those defined in 136. The mask branch has a Km2 - dimensional output for each RoI, which encodes K binary masks of resolution m × m, one for each of the K classes. To this we apply a per-pixel sigmoid, and define Lmask as the average binary cross-entropy loss. For an RoI associated with ground-truth class k, Lmask is only defined on the k-th mask (other mask outputs do not contribute to the loss).

공식적으로 훈련 과정에서 각 샘플링 된 RoI에 대한 다중 작업 손실을 L = Lcls + Lbox + Lmask로 정의합니다. 분류 손실 Lcl과 경계 상자 손실 Lbox는 137에 정의 된 것과 동일합니다. 마스크 브랜치는 각각의 RoI에 대한 Km2 차원 출력을 가지며, 해상도는 m × m의 K 이진 마스크를 K 개의 클래스마다 하나씩 인코딩합니다. 이를 위해 우리는 픽셀 당 sigmoid를 적용하고 Lmask를 평균 이진 교차 엔트로피 손실로 정의합니다. 지면 진리 클래스 k와 관련된 RoI의 경우 Lmask는 k 번째 마스크에서만 정의됩니다 (다른 마스크 출력은 손실에 기여하지 않습니다).

ENG

KOR

Our definition of Lmask allows the network to generate masks for every class without competition among classes; we rely on the dedicated classification branch to predict the class label used to select the output mask. This decouples mask and class prediction. This is different from common practice when applying FCNs 138 to semantic segmentation, which typically uses a per-pixel softmax and a multinomial cross-entropy loss. In that case, masks across classes compete; in our case, with a per-pixel sigmoid and a binary loss, they do not. We show by experiments that this formulation is key for good instance segmentation results.

Lmask의 정의는 네트워크가 클래스 간 경쟁없이 모든 클래스에 대한 마스크를 생성 할 수 있도록합니다. 출력 마스크를 선택하는 데 사용되는 클래스 레이블을 예측하기 위해 전용 분류 분기를 사용합니다. 마스크와 클래스 예측을 분리합니다. 이는 일반적으로 픽셀 당 소프트 맥스 및 다항식 교차 엔트로피 손실을 사용하는 의미 론적 분할에 FCN 139을 적용 할 때의 일반적인 관행과 다릅니다. 이 경우 클래스 간 마스크가 경쟁합니다. 우리의 경우, 픽셀 당 시그 모이 드와 이진 손실은 그렇지 않습니다. 우리는 실험에 의해이 공식화가 좋은 인스턴스 분할 결과의 핵심임을 보여줍니다.

ENG

KOR

Mask Representation: A mask encodes an input object’s spatial layout. Thus, unlike class labels or box offsets that are inevitably collapsed into short output vectors by fully-connected (fc) layers, extracting the spatial structure of masks can be addressed naturally by the pixel-to-pixel correspondence provided by convolutions.

마스크 표현 : 마스크는 입력 객체의 공간 레이아웃을 인코딩합니다. 따라서, 완전히 연결된 (fc) 레이어에 의해 짧은 출력 벡터로 불가피하게 축소되는 클래스 레이블 또는 박스 오프셋과 달리, 마스크의 공간 구조 추출은 컨볼 루션에 의해 제공되는 픽셀 간 대응에 의해 자연스럽게 처리 될 수있다.

ENG

KOR

Specifically, we predict an m × m mask from each RoI using an FCN 140. This allows each layer in the mask branch to maintain the explicit m × m object spatial layout without collapsing it into a vector representation that lacks spatial dimensions. Unlike previous methods that resort to fc layers for mask prediction141142143, our fully convolutional representation requires fewer parameters, and is more accurate as demonstrated by experiments.

특히, 우리는 FCN을 사용하여 각 RoI로부터 m × m 마스크를 예측한다 144. 이를 통해 마스크 분기의 각 레이어는 공간 차원이없는 벡터 표현으로 축소하지 않고 명시적인 m × m 객체 공간 레이아웃을 유지할 수 있습니다. 마스크 예측을 위해 fc 레이어에 의존하는 이전의 방법과는 달리145146147, 우리의 완전한 컨볼 루션 표현은 더 적은 파라미터를 필요로하며 실험에 의해보다 정확합니다.

ENG

KOR

This pixel-to-pixel behavior requires our RoI features, which themselves are small feature maps, to be well aligned to faithfully preserve the explicit per-pixel spatial correspondence. This motivated us to develop the following RoIAlign layer that plays a key role in mask prediction.

이 픽셀 간 동작은 픽셀 당 공간적 대응을 충실하게 보존하기 위해 자체적으로 작은 기능 맵인 RoI 기능이 잘 정렬되어야합니다. 이로 인해 마스크 예측에서 핵심적인 역할을하는 다음 RoIAlign 레이어를 개발하게되었습니다.

ENG

KOR

RoIAlign: RoIPool 148 is a standard operation for extracting a small feature map (e.g., 7×7) from each RoI. RoIPool first quantizes a floating-number RoI to the discrete granularity of the feature map, this quantized RoI is then subdivided into spatial bins which are themselves quantized, and finally feature values covered by each bin are aggregated (usually by max pooling). Quantization is performed, e.g., on a continuous coordinate x by computing [x/16], where 16 is a feature map stride and [·] is rounding; likewise, quantization is performed when dividing into bins (e.g., 7×7). These quantizations introduce misalignments between the RoI and the extracted features. While this may not impact classification, which is robust to small translations, it has a large negative effect on predicting pixel-accurate masks.

RoIAlign : RoIPool 149은 각 RoI에서 작은 기능 맵 (예 : 7x7)을 추출하기위한 표준 작업입니다. RoIPool은 먼저 부동 수 RoI를 기능 맵의 개별 단위로 양자화 한 다음이 양자화 된 RoI를 공간 빈으로 세분화하여 자체적으로 양자화 한 다음 각 빈이 포함하는 기능 값을 집계합니다 (일반적으로 최대 풀링). 양자화는 예를 들어 [x / 16]을 계산함으로써 연속 좌표 x상에서 수행되며, 여기서 16은 특징 맵 보폭이고 [·]는 반올림하고; 마찬가지로, 빈 (bin) (예를 들어, 7 x 7)으로 나눌 때 양자화가 수행된다. 이러한 양자화는 RoI와 추출 된 특징 사이에 오정렬을 일으킨다. 작은 변환에는 강력한 분류에 영향을 미치지 않지만 픽셀 정확도 마스크를 예측하는 데 큰 부정적인 영향을 미칩니다.

ENG

KOR

To address this, we propose an RoIAlign layer that removes the harsh quantization of RoIPool, properly aligning the extracted features with the input. Our proposed change is simple: we avoid any quantization of the RoI boundaries or bins (i.e., we use x/16 instead of [x/16]). We use bilinear interpolation 150 to compute the exact values of the input features at four regularly sampled locations in each RoI bin, and aggregate the result (using max or average), see Figure 3 for details. We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.

이를 해결하기 위해 RoIPool의 가혹한 양자화를 제거하고 추출 된 기능을 입력과 올바르게 정렬하는 RoIAlign 레이어를 제안합니다. 제안 된 변경은 간단합니다. RoI 경계 또는 빈의 양자화를 피하십시오 (즉, [x / 16] 대신 x / 16을 사용합니다). 우리는 bilinear interpolation 151을 사용하여 각 RoI bin에서 정기적으로 샘플링 된 4 개의 위치에서 입력 피처의 정확한 값을 계산하고 결과를 집계합니다 (최대 또는 평균 사용). 자세한 내용은 그림 3을 참조하십시오. 양자화가 수행되지 않는 한 결과는 정확한 샘플링 위치 또는 샘플링 된 포인트 수에 민감하지 않습니다.

ENG

KOR

RoIAlign leads to large improvements as we show in §4.2. We also compare to the RoIWarp operation proposed in 152. Unlike RoIAlign, RoIWarp overlooked the alignment issue and was implemented in 153 as quantizing RoI just like RoIPool. So even though RoIWarp also adopts bilinear resampling motivated by 154, it performs on par with RoIPool as shown by experiments (more details in Table 2c), demonstrating the crucial role of alignment.

RoIAlign은 §4.2에 나와있는 것처럼 크게 개선되었습니다. 또한 155에서 제안한 RoIWarp 작업과 비교합니다. RoIAlign과 달리 RoIWarp는 정렬 문제를 간과하고 RoIPool과 마찬가지로 RoI를 양자화하는 방식으로 156에 구현되었습니다. 따라서 RoIWarp는 157에 의해 동기 부여 된 이중 선형 리샘플링을 채택하더라도 실험에 의해 나타난 바와 같이 RoIPool과 동등하게 수행되며 (표 2c의 세부 사항 참조) 정렬의 중요한 역할을 보여줍니다.

ENG

KOR

Network Architecture: To demonstrate the generality of our approach, we instantiate Mask R-CNN with multiple architectures. For clarity, we differentiate between: (i) the convolutional backbone architecture used for feature extraction over an entire image, and (ii) the network head for bounding-box recognition (classification and regression) and mask prediction that is applied separately to each RoI.

네트워크 아키텍처 : 접근 방식의 일반성을 입증하기 위해 마스크 R-CNN을 여러 아키텍처로 인스턴스화합니다. 명확성을 위해 다음과 같이 구분합니다. (i) 전체 이미지에서 특징 추출에 사용되는 컨볼 루션 백본 아키텍처와 (ii) 경계 상자 인식 (분류 및 회귀)을위한 네트워크 헤드와 각 RoI에 개별적으로 적용되는 마스크 예측.

ENG

KOR

We denote the backbone architecture using the nomenclature network-depth-features. We evaluate ResNet 158 and ResNeXt 159 networks of depth 50 or 101 layers. The original implementation of Faster R-CNN with ResNets 160 extracted features from the final convolutional layer of the 4-th stage, which we call C4. This backbone with ResNet-50, for example, is denoted by ResNet-50-C4. This is a common choice used in161162163164.

우리는 명명법 네트워크 깊이 기능을 사용하여 백본 아키텍처를 나타냅니다. 깊이 50 또는 101 계층의 ResNet 165 및 ResNeXt 166 네트워크를 평가합니다. ResNets를 사용한 Faster R-CNN의 원래 구현은 167 C4라고하는 4 단계의 마지막 컨볼 루션 레이어에서 기능을 추출했습니다. 예를 들어 ResNet-50이있는이 백본은 ResNet-50-C4로 표시됩니다. 이것은168169170171에서 일반적으로 사용되는 선택입니다.

ENG

KOR

We also explore another more effective backbone recently proposed by Lin et al. 172, called a Feature Pyramid Network (FPN). FPN uses a top-down architecture with lateral connections to build an in-network feature pyramid from a single-scale input. Faster R-CNN with an FPN backbone extracts RoI features from different levels of the feature pyramid according to their scale, but otherwise the rest of the approach is similar to vanilla ResNet. Using a ResNet-FPN backbone for feature extraction with Mask RCNN gives excellent gains in both accuracy and speed. For further details on FPN, we refer readers to 173.

우리는 또한 Lin et al. 174, 기능 피라미드 네트워크 (FPN)라고합니다. FPN은 측면 연결이있는 하향식 아키텍처를 사용하여 단일 스케일 입력에서 네트워크 내 기능 피라미드를 구축합니다. FPN 백본이있는 더 빠른 R-CNN은 규모에 따라 다양한 레벨의 피쳐 피라미드에서 RoI 피쳐를 추출하지만 그렇지 않은 경우 나머지 접근 방식은 바닐라 ResNet과 유사합니다. Mask RCNN으로 피처 추출을 위해 ResNet-FPN 백본을 사용하면 정확도와 속도가 모두 크게 향상됩니다. FPN에 대한 자세한 내용은 독자에게 175을 참조하십시오.

ENG

KOR

For the network head we closely follow architectures presented in previous work to which we add a fully convolutional mask prediction branch. Specifically, we extend the Faster R-CNN box heads from the ResNet 176 and FPN 177 papers. Details are shown in Figure 4. The head on the ResNet-C4 backbone includes the 5-th stage of ResNet (namely, the 9-layer ‘res5’ 178), which is computeintensive. For FPN, the backbone already includes res5 and thus allows for a more efficient head that uses fewer filters.

네트워크 헤드의 경우 이전 작업에서 제시된 아키텍처를 철저히 준수하여 완전히 컨볼 루션 마스크 예측 브랜치를 추가합니다. 특히, 우리는 ResNet 179 및 FPN 180 논문에서 Faster R-CNN 박스 헤드를 확장합니다. 자세한 내용은 그림 4에 나와 있습니다. ResNet-C4 백본의 헤드에는 ResNet의 5 단계 (즉, 9 계층 'res5'181)가 포함되어 있으며 이는 계산 집약적입니다. FPN의 경우, 백본에는 이미 res5가 포함되어 있으므로 더 적은 수의 필터를 사용하는보다 효율적인 헤드가 가능합니다.

ENG

KOR

We note that our mask branches have a straightforward structure. More complex designs have the potential to improve performance but are not the focus of this work.

마스크 브랜치는 간단한 구조를 가지고 있습니다. 보다 복잡한 설계는 성능을 향상시킬 수있는 잠재력을 가지고 있지만이 작업의 초점은 아닙니다.

3.1. Implementation Details

ENG

KOR

We set hyper-parameters following existing Fast/Faster R-CNN work182183184. Although these decisions were made for object detection in original papers185186187, we found our instance segmentation system is robust to them.

기존 Fast / Faster R-CNN 작업에 따라 하이퍼 파라미터를 설정합니다188189190. 이러한 결정은 원본 논문191192193에서 물체 감지를 위해 결정되었지만 인스턴스 분할 시스템이 강력하다는 것을 알았습니다.

ENG

KOR

Training: As in Fast R-CNN, an RoI is considered positive if it has IoU with a ground-truth box of at least 0.5 and negative otherwise. The mask loss Lmask is defined only on positive RoIs. The mask target is the intersection between an RoI and its associated ground-truth mask.

교육 : Fast R-CNN에서와 같이 RoI는 IoU가 0.5 이상의지면 진실 상자이고 그렇지 않으면 음수 인 경우 긍정적으로 간주됩니다. 마스크 손실 Lmask는 양의 RoI에만 정의됩니다. 마스크 대상은 RoI와 관련지면 진실 마스크의 교차점입니다.

ENG

KOR

We adopt image-centric training 194. Images are resized such that their scale (shorter edge) is 800 pixels 195. Each mini-batch has 2 images per GPU and each image has N sampled RoIs, with a ratio of 1:3 of positive to negatives 196. N is 64 for the C4 backbone (as in197198) and 512 for FPN (as in 199). We train on 8 GPUs (so effective minibatch size is 16) for 160k iterations, with a learning rate of 0.02 which is decreased by 10 at the 120k iteration. We use a weight decay of 0.0001 and momentum of 0.9. With ResNeXt 200, we train with 1 image per GPU and the same number of iterations, with a starting learning rate of 0.01.

우리는 이미지 중심 훈련을 채택한다 201. 이미지의 크기 (가장자리가 짧은 쪽)가 800 픽셀이되도록 크기가 조정됩니다 202. 각 미니 배치에는 GPU 당 2 개의 이미지가 있으며 각 이미지에는 N : 샘플링 된 RoI가 있으며 1 : 3의 양 대 음의 비율이 있습니다 203. N은 C4 백본의 경우 64이고 204205에서와 같음) FPN의 경우 512입니다 (206과 같습니다). 160k 반복에 대해 8 개의 GPU (유효한 미니 배치 크기는 16)를 학습하며 학습 속도는 0.02로 120k 반복에서 10 씩 감소합니다. 우리는 0.0001의 무게 감퇴와 0.9의 운동량을 사용합니다. ResNeXt 207를 사용하면 GPU 당 1 개의 이미지와 동일한 반복 횟수로 학습 속도가 0.01로 학습됩니다.

ENG

KOR

The RPN anchors span 5 scales and 3 aspect ratios, following 208. For convenient ablation, RPN is trained separately and does not share features with Mask R-CNN, unless specified. For every entry in this paper, RPN and Mask R-CNN have the same backbones and so they are shareable.

RPN 앵커는 209에 따라 5 개의 스케일과 3 개의 종횡비에 걸쳐 있습니다. 편리한 절제를 위해 RPN은 별도로 학습되며 지정되지 않는 한 Mask R-CNN과 기능을 공유하지 않습니다. 이 백서의 모든 항목에 대해 RPN과 Mask R-CNN은 동일한 백본을 가지므로 공유 할 수 있습니다.

ENG

KOR

Inference: At test time, the proposal number is 300 for the C4 backbone (as in 210) and 1000 for FPN (as in 211). We run the box prediction branch on these proposals, followed by non-maximum suppression 212. The mask branch is then applied to the highest scoring 100 detection boxes. Although this differs from the parallel computation used in training, it speeds up inference and improves accuracy (due to the use of fewer, more accurate RoIs). The mask branch can predict K masks per RoI, but we only use the k-th mask, where k is the predicted class by the classification branch. The m×m floating-number mask output is then resized to the RoI size, and binarized at a threshold of 0.5.

추론 : 테스트시 제안 번호는 C4 백본 (300) (213에서)으로, FPN (1000) (214에서)로 제안됩니다. 우리는 이러한 제안들에 대해 박스 예측 브랜치를 운영하고 그 다음에는 최대 억제가되지 않는다 215. 마스크 브랜치는 최고 득점 100 개의 검출 박스에 적용된다. 이것은 훈련에 사용되는 병렬 계산과 다르지만 추론 속도를 높이고 정확도를 향상시킵니다 (더 적고 더 정확한 RoI를 사용하기 때문에). 마스크 분기는 RoI 당 K 개의 마스크를 예측할 수 있지만 k 번째 마스크 만 사용합니다. 여기서 k는 분류 분기에 의해 예측 된 클래스입니다. 그 후, m × m 부동 수 마스크 출력은 RoI 크기로 크기가 조정되고, 0.5의 임계 값에서 이진화된다.

ENG

KOR

Note that since we only compute masks on the top 100 detection boxes, Mask R-CNN adds a small overhead to its Faster R-CNN counterpart (e.g., ∼20% on typical models).

상위 100 개의 탐지 상자에서만 마스크를 계산하므로 Mask R-CNN은 Faster R-CNN 대응에 약간의 오버 헤드를 추가합니다 (예 : 일반 모델의 경우 ~ 20 %).

4. Experiments: Instance Segmentation

ENG

KOR

We perform a thorough comparison of Mask R-CNN to the state of the art along with comprehensive ablations on the COCO dataset 216. We report the standard COCO metrics including AP (averaged over IoU thresholds), AP50, AP75, and APS, APM, APL (AP at different scales). Unless noted, AP is evaluating using mask IoU. As in previous work217218, we train using the union of 80k train images and a 35k subset of val images (trainval35k), and report ablations on the remaining 5k val images (minival). We also report results on test-dev 219.

COCO 데이터 세트에 대한 포괄적 인 제거와 함께 마스크 R-CNN과 최신 기술을 철저히 비교합니다 220. AP (평균 IoU 임계 값 초과), AP50, AP75 및 APS, APM, APL (다양한 규모의 AP)을 포함한 표준 COCO 지표를보고합니다. 별도의 언급이없는 한 AP는 마스크 IoU를 사용하여 평가하고 있습니다. 이전 연구221222에서와 같이, 우리는 80k 트레인 이미지와 35k 서브셋 이미지 (trainval35k)의 합집합을 사용하여 훈련하고 나머지 5kval 이미지 (최소)에 대한 절제를보고합니다. 우리는 또한 test-dev에 대한 결과를보고한다 223.

4.1. Main Results

ENG

KOR

We compare Mask R-CNN to the state-of-the-art methods in instance segmentation in Table 1. All instantiations of our model outperform baseline variants of previous state-of-the-art models. This includes MNC 224 and FCIS 225, the winners of the COCO 2015 and 2016 segmentation challenges, respectively. Without bells and whistles, Mask R-CNN with ResNet-101-FPN backbone outperforms FCIS+++ 226, which includes multi-scale train/test, horizontal flip test, and online hard example mining (OHEM) 227. While outside the scope of this work, we expect many such improvements to be applicable to ours.

표 1의 인스턴스 분할에서 Mask R-CNN을 최신 방법과 비교합니다. 모델의 모든 인스턴스화는 이전의 최신 모델의 기본 변형보다 성능이 뛰어납니다. 여기에는 COCO 2015 및 2016 세분화 과제의 승자 인 MNC 228 및 FCIS 229이 포함됩니다. 종소리와 휘파람이 없으면 ResNet-101-FPN 백본이있는 Mask R-CNN은 FCIS +++보다 성능이 뛰어납니다 230. 여기에는 멀티 스케일 열차 / 테스트, 수평 플립 테스트 및 온라인 하드 예제 마이닝 (OHEM)이 포함됩니다 231. 이 연구의 범위를 벗어나는 동안, 우리는 그러한 개선이 우리에게 적용되기를 기대합니다.

ENG

KOR

Mask R-CNN outputs are visualized in Figures 2 and 5. Mask R-CNN achieves good results even under challenging conditions. In Figure 6 we compare our Mask R-CNN baseline and FCIS+++ 232. FCIS+++ exhibits systematic artifacts on overlapping instances, suggesting that it is challenged by the fundamental difficulty of instance segmentation. Mask R-CNN shows no such artifacts.

마스크 R-CNN 출력은 그림 2와 5에 표시되어 있습니다. 마스크 R-CNN은 까다로운 조건에서도 우수한 결과를 얻습니다. 그림 6에서 Mask R-CNN베이스 라인과 FCIS +++를 비교합니다 233. FCIS +++는 겹치는 인스턴스에 체계적인 아티팩트를 표시하므로 인스턴스 분할의 근본적인 어려움으로 인해 어려움을 겪고 있습니다. 마스크 R-CNN은 그러한 인공물을 보여주지 않습니다.

4.2. Ablation Experiments

ENG

KOR

We run a number of ablations to analyze Mask R-CNN. Results are shown in Table 2 and discussed in detail next.

마스크 R-CNN을 분석하기 위해 다수의 절제를 실행합니다. 결과는 표 2에 도시되고 다음에 상세하게 논의된다.

ENG

KOR

Architecture: Table 2a shows Mask R-CNN with various backbones. It benefits from deeper networks (50 vs. 101) and advanced designs including FPN and ResNeXt. We note that not all frameworks automatically benefit from deeper or advanced networks (see benchmarking in 234).

아키텍처 : 표 2a는 다양한 백본이있는 마스크 R-CNN을 보여줍니다. 보다 깊은 네트워크 (50 대 101)와 FPN 및 ResNeXt를 포함한 고급 설계의 이점을 활용할 수 있습니다. 모든 프레임 워크가 더 깊거나 고급 네트워크에서 자동으로 혜택을받는 것은 아닙니다 (235의 벤치마킹 참조).

ENG

KOR

Multinomial vs. Independent Masks: Mask R-CNN decouples mask and class prediction: as the existing box branch predicts the class label, we generate a mask for each class without competition among classes (by a per-pixel sigmoid and a binary loss). In Table 2b, we compare this to using a per-pixel softmax and a multinomial loss (as commonly used in FCN 236). This alternative couples the tasks of mask and class prediction, and results in a severe loss in mask AP (5.5 points). This suggests that once the instance has been classified as a whole (by the box branch), it is sufficient to predict a binary mask without concern for the categories, which makes the model easier to train.

다항식 vs. 독립 마스크 : 마스크 R-CNN은 마스크와 클래스 예측을 분리합니다. 기존 박스 브랜치가 클래스 레이블을 예측할 때 각 픽셀에 대한 경쟁없이 (픽셀 당 시그 모이 드 및 이진 손실) 각 클래스에 대한 마스크를 생성합니다. 표 2b에서 우리는 이것을 픽셀 당 소프트 맥스와 다항식 손실을 사용하는 것과 비교한다 (FCN 237에서 일반적으로 사용됨). 이 대안은 마스크와 클래스 예측의 작업을 결합하여 마스크 AP의 심각한 손실 (5.5 점)을 초래합니다. 이것은 일단 인스턴스가 (박스 브랜치에 의해) 전체로 분류되면, 카테고리에 대한 걱정없이 이진 마스크를 예측하는 것으로 충분하여 모델을 쉽게 훈련시킬 수 있음을 시사합니다.

ENG

KOR

Class-Specific vs. Class-Agnostic Masks: Our default instantiation predicts class-specific masks, i.e., one m×m mask per class. Interestingly, Mask R-CNN with classagnostic masks (i.e., predicting a single m×m output regardless of class) is nearly as effective: it has 29.7 mask AP vs. 30.3 for the class-specific counterpart on ResNet-50-C4. This further highlights the division of labor in our approach which largely decouples classification and segmentation.

Class-Specific vs. Class-Agnostic Masks : 클래스의 기본 인스턴스화는 클래스 별 마스크, 즉 클래스 당 하나의 m × m 마스크를 예측합니다. 흥미롭게도 classagnostic 마스크가있는 Mask R-CNN (즉, 클래스에 관계없이 단일 mxm 출력 예측)은 거의 효과적입니다. ResNet-50-C4의 클래스 별 상대방에 대해 29.7 마스크 AP 대 30.3이 있습니다. 이것은 분류와 세분화를 크게 분리시키는 우리의 접근 방식에서 노동 분업을 강조합니다.

ENG

KOR

RoIAlign: An evaluation of our proposed RoIAlign layer is shown in Table 2c. For this experiment we use the ResNet50-C4 backbone, which has stride 16. RoIAlign improves AP by about 3 points over RoIPool, with much of the gain coming at high IoU (AP75). RoIAlign is insensitive to max/average pool; we use average in the rest of the paper.

RoIAlign : 제안 된 RoIAlign 레이어의 평가는 표 2c에 나와 있습니다. 이 실험에서 우리는 16 개의 보폭을 가진 ResNet50-C4 백본을 사용합니다. RoIAlign은 RoIPool에 비해 AP를 약 3 포인트 향상 시키며 높은 이득은 높은 IoU (AP75)에서 발생합니다. RoIAlign은 최대 / 평균 풀에 둔감합니다. 우리는 나머지 논문에서 평균을 사용합니다.

ENG

KOR

Additionally, we compare with RoIWarp proposed in MNC 238 that also adopt bilinear sampling. As discussed in §3, RoIWarp still quantizes the RoI, losing alignment with the input. As can be seen in Table 2c, RoIWarp performs on par with RoIPool and much worse than RoIAlign. This highlights that proper alignment is key.

또한 이중 선형 샘플링을 채택한 MNC 239에서 제안한 RoIWarp와 비교합니다. §3에서 논의했듯이 RoIWarp는 여전히 RoI를 양자화하여 입력과의 정렬을 잃습니다. 표 2c에서 볼 수 있듯이 RoIWarp는 RoIPool과 동등한 성능을 발휘하며 RoIAlign보다 훨씬 나쁩니다. 이것은 적절한 정렬이 핵심임을 강조합니다.

ENG

KOR

We also evaluate RoIAlign with a ResNet-50-C5 backbone, which has an even larger stride of 32 pixels. We use the same head as in Figure 4 (right), as the res5 head is not applicable. Table 2d shows that RoIAlign improves mask AP by a massive 7.3 points, and mask AP75 by 10.5 points (50% relative improvement). Moreover, we note that with RoIAlign, using stride-32 C5 features (30.9 AP) is more accurate than using stride-16 C4 features (30.3 AP, Table 2c). RoIAlign largely resolves the long-standing challenge of using large-stride features for detection and segmentation.

또한 32 픽셀의 보폭을 가진 ResNet-50-C5 백본을 사용하여 RoIAlign을 평가합니다. res5 헤드는 적용 할 수 없으므로 그림 4와 동일한 헤드 (오른쪽)를 사용합니다. 표 2d는 RoIAlign이 마스크 AP를 7.3 포인트 크게 향상시키고 마스크 AP75를 10.5 포인트 향상 (50 % 상대적 개선) 함을 보여줍니다. 또한 RoIAlign에서는 stride-32 C5 기능 (30.9 AP)을 사용하는 것이 stride-16 C4 기능 (30.3 AP, 표 2c)을 사용하는 것보다 더 정확합니다. RoIAlign은 탐지 및 세그먼테이션에 큰 보폭 기능을 사용하는 데 따른 오랜 과제를 대부분 해결합니다.

ENG

KOR

Finally, RoIAlign shows a gain of 1.5 mask AP and 0.5 box AP when used with FPN, which has finer multi-level strides. For keypoint detection that requires finer alignment, RoIAlign shows large gains even with FPN (Table 6).

마지막으로 RoIAlign은 FPN과 함께 사용할 때 1.5 마스크 AP와 0.5 박스 AP의 이득을 보여줍니다. 보다 정밀한 정렬이 필요한 키포인트 감지의 경우 RoIAlign은 FPN에서도 큰 이득을 보입니다 (표 6).

ENG

KOR

Mask Branch: Segmentation is a pixel-to-pixel task and we exploit the spatial layout of masks by using an FCN. In Table 2e, we compare multi-layer perceptrons (MLP) and FCNs, using a ResNet-50-FPN backbone. Using FCNs gives a 2.1 mask AP gain over MLPs. We note that we choose this backbone so that the conv layers of the FCN head are not pre-trained, for a fair comparison with MLP

마스크 브랜치 : 분할은 픽셀 간 작업이며 FCN을 사용하여 마스크의 공간 레이아웃을 활용합니다. 표 2e에서는 ResNet-50-FPN 백본을 사용하여 MLP (Multi-Layer Perceptron)와 FCN을 비교합니다. FCN을 사용하면 MLP보다 2.1 마스크 AP 이득이 제공됩니다. MLP과의 공정한 비교를 위해 FCN 헤드의 전환 레이어가 사전 훈련되지 않도록이 백본을 선택합니다

4.3. Bounding Box Detection Results

ENG

KOR

We compare Mask R-CNN to the state-of-the-art COCO bounding-box object detection in Table 3. For this result, even though the full Mask R-CNN model is trained, only the classification and box outputs are used at inference (the mask output is ignored). Mask R-CNN using ResNet-101- FPN outperforms the base variants of all previous state-ofthe-art models, including the single-model variant of GRMI 240, the winner of the COCO 2016 Detection Challenge. Using ResNeXt-101-FPN, Mask R-CNN further improves results, with a margin of 3.0 points box AP over the best previous single model entry from 241 (which used Inception-ResNet-v2-TDM).

우리는 마스크 R-CNN을 표 3의 최신 COCO 경계 상자 개체 감지와 비교합니다.이 결과를 위해 전체 마스크 R-CNN 모델이 학습 되었더라도 분류 및 상자 출력은 추론에 사용됩니다 (마스크 출력은 무시 됨). ResNet-101-FPN을 사용한 마스크 R-CNN은 COCO 2016 Detection Challenge의 우승자 인 GRMI의 단일 모델 변형 242을 포함하여 이전의 모든 최신 모델의 기본 변형을 능가합니다. ResNeXt-101-FPN을 사용하여 Mask R-CNN은 243 (Inception-ResNet-v2-TDM을 사용한)의 가장 오래된 이전 단일 모델 항목에 대해 3.0 포인트 박스 AP의 마진으로 결과를 더욱 향상시킵니다.

ENG

KOR

As a further comparison, we trained a version of Mask R-CNN but without the mask branch, denoted by “Faster R-CNN, RoIAlign” in Table 3. This model performs better than the model presented in 244 due to RoIAlign. On the other hand, it is 0.9 points box AP lower than Mask R-CNN. This gap of Mask R-CNN on box detection is therefore due solely to the benefits of multi-task training.

더 비교하기 위해, 우리는 마스크 R-CNN의 버전을 교육했지만 마스크 브랜치없이 표 3의“Faster R-CNN, RoIAlign”으로 표시했습니다.이 모델은 RoIAlign으로 인해 245에 제시된 모델보다 성능이 우수합니다. 한편, 마스크 R-CNN보다 0.9 포인트 박스 AP가 낮다. 박스 감지에서 마스크 R-CNN의 이러한 차이는 전적으로 멀티 태스킹 교육의 이점 때문입니다.

ENG

KOR

Lastly, we note that Mask R-CNN attains a small gap between its mask and box AP: e.g., 2.7 points between 37.1 (mask, Table 1) and 39.8 (box, Table 3). This indicates that our approach largely closes the gap between object detection and the more challenging instance segmentation task.

마지막으로, 마스크 R-CNN은 마스크와 박스 AP 사이에 작은 간격 (예 : 37.1 (마스크, 표 1)과 39.8 (상자, 표 3) 사이의 2.7 점)을 얻습니다. 이는 우리의 접근 방식이 객체 감지와보다 까다로운 인스턴스 세분화 작업 사이의 격차를 크게 줄였다는 것을 나타냅니다.

4.4. Timing

ENG

KOR

Inference: We train a ResNet-101-FPN model that shares features between the RPN and Mask R-CNN stages, following the 4-step training of Faster R-CNN 246. This model runs at 195ms per image on an Nvidia Tesla M40 GPU (plus 15ms CPU time resizing the outputs to the original resolution), and achieves statistically the same mask AP as the unshared one. We also report that the ResNet-101-C4 variant takes ∼400ms as it has a heavier box head (Figure 4), so we do not recommend using the C4 variant in practice.

추론 : 우리는보다 빠른 R-CNN의 4 단계 훈련 247에 따라 RPN과 Mask R-CNN 단계 사이에서 기능을 공유하는 ResNet-101-FPN 모델을 훈련시킵니다. 이 모델은 Nvidia Tesla M40 GPU에서 이미지 당 195ms에서 실행되며 (출력을 원래 해상도로 조정하는 CPU 시간 15ms 이상) 통계적으로 공유되지 않은 것과 동일한 마스크 AP를 달성합니다. 또한 ResNet-101-C4 변형은 더 무거운 박스 헤드를 갖기 때문에 ~ 400ms가 소요되므로 실제로 C4 변형을 사용하지 않는 것이 좋습니다.

ENG

KOR

Mask R-CNN은 빠르지 만, 우리의 디자인은 속도에 최적화되지 않았으며, 더 빠른 속도 / 정확성 트레이드 오프 (예 :이 백서의 범위를 벗어난 이미지 크기와 제안 번호를 변경하여)를 얻을 수 있습니다.

Although Mask R-CNN is fast, we note that our design is not optimized for speed, and better speed/accuracy tradeoffs could be achieved 248, e.g., by varying image sizes and proposal numbers, which is beyond the scope of this paper.

ENG

KOR

Training: Mask R-CNN is also fast to train. Training with ResNet-50-FPN on COCO trainval35k takes 32 hours in our synchronized 8-GPU implementation (0.72s per 16- image mini-batch), and 44 hours with ResNet-101-FPN. In fact, fast prototyping can be completed in less than one day when training on the train set. We hope such rapid training will remove a major hurdle in this area and encourage more people to perform research on this challenging topic.

교육 : Mask R-CNN도 빠르게 훈련합니다. COCO trainval35k에서 ResNet-50-FPN을 사용한 교육은 동기화 된 8-GPU 구현 (32 개 이미지 미니 배치 당 0.72)에서 32 시간이 걸리고 ResNet-101-FPN에서는 44 시간이 걸립니다. 실제로, 기차 세트를 훈련 할 때 하루 만에 빠른 프로토 타이핑을 완료 할 수 있습니다. 우리는 그러한 빠른 훈련이이 분야의 주요 장애물을 제거하고 더 많은 사람들이이 도전적인 주제에 대한 연구를 수행하도록 장려하기를 바랍니다.

5. Mask R-CNN for Human Pose Estimation

ENG

KOR

Our framework can easily be extended to human pose estimation. We model a keypoint’s location as a one-hot mask, and adopt Mask R-CNN to predict K masks, one for each of K keypoint types (e.g., left shoulder, right elbow). This task helps demonstrate the flexibility of Mask R-CNN

우리 프레임 워크는 인간 포즈 추정으로 쉽게 확장 될 수 있습니다. 우리는 키포인트의 위치를 one-hot mask로 모델링하고, 마스크 R-CNN을 채택하여 K 개의 키포인트 유형마다 하나씩 K 마스크를 예측합니다 (예 : 왼쪽 어깨, 오른쪽 팔꿈치). 이 작업은 Mask R-CNN의 유연성을 입증하는 데 도움이 됩니다.

ENG

KOR

We note that minimal domain knowledge for human pose is exploited by our system, as the experiments are mainly to demonstrate the generality of the Mask R-CNN framework. We expect that domain knowledge (e.g., modeling structures 249) will be complementary to our simple approach.

실험은 주로 Mask R-CNN 프레임 워크의 일반성을 보여주기 때문에 인간 자세에 대한 최소한의 도메인 지식이 시스템에 의해 활용됩니다. 우리는 도메인 지식 (예를 들어, 모델링 구조 250)이 우리의 간단한 접근법을 보완 할 것으로 기대합니다.

ENG

KOR

Implementation Details: We make minor modifications to the segmentation system when adapting it for keypoints. For each of the K keypoints of an instance, the training target is a one-hot m × m binary mask where only a single pixel is labeled as foreground. During training, for each visible ground-truth keypoint, we minimize the cross-entropy loss over an m2 -way softmax output (which encourages a single point to be detected). We note that as in instance segmentation, the K keypoints are still treated independently.

구현 세부 사항 : 키포인트에 맞게 조정할 때 세분화 시스템을 약간 수정합니다. 인스턴스의 각 K 키포인트에 대해 교육 대상은 단일 픽셀 만 전경으로 레이블이 지정된 one-hot m × m 이진 마스크입니다. 훈련하는 동안, 각각의 가시적 인 지상 진실 키포인트에 대해, 우리는 m2-way softmax 출력에 대한 교차 엔트로피 손실을 최소화합니다 (단일 포인트가 감지되도록합니다). 인스턴스 분할과 마찬가지로 K 키포인트는 여전히 독립적으로 처리됩니다.

ENG

KOR

We adopt the ResNet-FPN variant, and the keypoint head architecture is similar to that in Figure 4 (right). The keypoint head consists of a stack of eight 3×3 512-d conv layers, followed by a deconv layer and 2× bilinear upscaling, producing an output resolution of 56×56. We found that a relatively high resolution output (compared to masks) is required for keypoint-level localization accuracy.

우리는 ResNet-FPN 변형을 채택했으며, 키포인트 헤드 아키텍처는 그림 4 (오른쪽)와 유사합니다. 키포인트 헤드는 8 개의 3x3 512-d conv 레이어 스택으로 구성되고 deconv 레이어와 2x bilinear upscaling으로 구성되어 56x56의 출력 해상도를 생성합니다. 키포인트 수준의 현지화 정확도를 위해서는 마스크와 비교할 때 상대적으로 높은 해상도의 출력이 필요합니다.

ENG

KOR

Models are trained on all COCO trainval35k images that contain annotated keypoints. To reduce overfitting, as this training set is smaller, we train using image scales randomly sampled from [640, 800] pixels; inference is on a single scale of 800 pixels. We train for 90k iterations, starting from a learning rate of 0.02 and reducing it by 10 at 60k and 80k iterations. We use bounding-box NMS with a threshold of 0.5. Other details are identical as in §3.1.

주석이 달린 키포인트가 포함 된 모든 COCO trainval35k 이미지에서 모델이 학습됩니다. 과적 합을 줄이기 위해이 트레이닝 세트가 작을수록 [640, 800] 픽셀에서 무작위로 샘플링 된 이미지 스케일을 사용하여 트레이닝합니다. 추론은 800 픽셀의 단일 스케일에 있습니다. 학습 속도 0.02에서 시작하여 60k 및 80k 반복에서 10 씩 줄이면 90k 반복에 대해 학습합니다. 임계 값이 0.5 인 경계 상자 NMS를 사용합니다. 다른 세부 사항은 §3.1에서와 동일합니다.

ENG

KOR

Main Results and Ablations: We evaluate the person keypoint AP (APkp) and experiment with a ResNet-50-FPN backbone; more backbones will be studied in the appendix. Table 4 shows that our result (62.7 APkp) is 0.9 points higher than the COCO 2016 keypoint detection winner 251 that uses a multi-stage processing pipeline (see caption of Table 4). Our method is considerably simpler and faster.

주요 결과 및 제거 : 개인 키포인트 AP (APkp)를 평가하고 ResNet-50-FPN 백본을 실험합니다. 부록에서 더 많은 백본을 연구 할 것입니다. 표 4는 우리의 결과 (62.7 APkp)가 다단계 처리 파이프 라인을 사용하는 COCO 2016 키포인트 탐지 수상자 252보다 0.9 포인트 높다는 것을 보여줍니다 (표 4 캡션 참조). 우리의 방법은 훨씬 간단하고 빠릅니다.

ENG

KOR

More importantly, we have a unified model that can simultaneously predict boxes, segments, and keypoints while running at 5 fps. Adding a segment branch (for the person category) improves the APkp to 63.1 (Table 4) on test-dev. More ablations of multi-task learning on minival are in Table 5. Adding the mask branch to the box-only (i.e., Faster R-CNN) or keypoint-only versions consistently improves these tasks. However, adding the keypoint branch reduces the box/mask AP slightly, suggesting that while keypoint detection benefits from multitask training, it does not in turn help the other tasks. Nevertheless, learning all three tasks jointly enables a unified system to efficiently predict all outputs simultaneously (Figure 7).

더 중요한 것은 5fps로 실행하면서 상자, 세그먼트 및 키포인트를 동시에 예측할 수있는 통합 모델이 있습니다. 개인 범주에 대해 세그먼트 분기를 추가하면 test-dev에서 APkp가 63.1 (표 4)로 향상됩니다. minival에 대한 멀티 태스킹 학습의 더 많은 절제가 표 5에 있습니다. 박스 전용 (즉, Faster R-CNN) 또는 키포인트 전용 버전에 마스크 분기를 추가하면 이러한 작업이 지속적으로 향상됩니다. 그러나 키포인트 브랜치를 추가하면 박스 / 마스크 AP가 약간 줄어들 기 때문에 키포인트 감지는 멀티 태스킹 교육의 이점이 있지만 다른 태스크에는 도움이되지 않습니다. 그럼에도 불구하고 세 가지 작업을 모두 학습하면 통합 시스템이 모든 출력을 동시에 효율적으로 예측할 수 있습니다 (그림 7).

ENG

KOR

We also investigate the effect of RoIAlign on keypoint detection (Table 6). Though this ResNet-50-FPN backbone has finer strides (e.g., 4 pixels on the finest level), RoIAlign still shows significant improvement over RoIPool and increases APkp by 4.4 points. This is because keypoint detections are more sensitive to localization accuracy. This again indicates that alignment is essential for pixel-level localization, including masks and keypoints.

또한 키포인트 탐지에 대한 RoIAlign의 효과를 조사합니다 (표 6). 이 ResNet-50-FPN 백본에는 더 미세한 보폭 (예 : 가장 높은 레벨에서 4 픽셀)이 있지만 RoIAlign은 여전히 RoIPool에 비해 상당한 개선을 보이며 APkp를 4.4 포인트 증가시킵니다. 키포인트 탐지가 현지화 정확도에 더 민감하기 때문입니다. 이것은 마스크와 키포인트를 포함하여 픽셀 수준의 지역화에 정렬이 필수적임을 나타냅니다.

ENG

KOR

Given the effectiveness of Mask R-CNN for extracting object bounding boxes, masks, and keypoints, we expect it be an effective framework for other instance-level tasks.

객체 경계 상자, 마스크 및 키포인트를 추출하는 데 Mask R-CNN의 효과가 주어지면 다른 인스턴스 수준 작업에 효과적인 프레임 워크가 될 것으로 기대합니다.

Appendix A: Experiments on Cityscapes

ENG

KOR

We further report instance segmentation results on the Cityscapes 253 dataset. This dataset has fine annotations for 2975 train, 500 val, and 1525 test images. It has 20k coarse training images without instance annotations, which we do not use. All images are 2048×1024 pixels. The instance segmentation task involves 8 object categories, whose numbers of instances on the fine training set are:

Cityscapes 254 데이터 세트에 대한 인스턴스 분할 결과를 추가로보고합니다. 이 데이터 세트에는 2975 개의 기차, 500val 및 1525 개의 테스트 이미지에 대한 주석이 있습니다. 인스턴스 주석이없는 20k 개의 거친 훈련 이미지가 있으며 사용하지 않습니다. 모든 이미지는 2048 × 1024 픽셀입니다. 인스턴스 세분화 작업에는 8 개의 객체 범주가 포함되며, 세부 트레이닝 세트의 인스턴스 수는 다음과 같습니다

~~ 테이블 ~~

ENG

KOR

Instance segmentation performance on this task is measured by the COCO-style mask AP (averaged over IoU thresholds); AP50 (i.e., mask AP at an IoU of 0.5) is also reported.

이 작업의 인스턴스 세분화 성능은 COCO 스타일 마스크 AP (IoU 임계 값을 통해 평균화 됨)로 측정됩니다. AP50 (즉, IoU가 0.5 인 마스크 AP)도보고됩니다.

ENG

KOR

Implementation: We apply our Mask R-CNN models with the ResNet-FPN-50 backbone; we found the 101-layer counterpart performs similarly due to the small dataset size. We train with image scale (shorter side) randomly sampled from [800, 1024], which reduces overfitting; inference is on a single scale of 1024 pixels. We use a mini-batch size of 1 image per GPU (so 8 on 8 GPUs) and train the model for 24k iterations, starting from a learning rate of 0.01 and reducing it to 0.001 at 18k iterations. It takes ∼4 hours of training on a single 8-GPU machine under this setting.

구현 : 마스크 R-CNN 모델을 ResNet-FPN-50 백본과 함께 적용합니다. 우리는 101 계층 대응 물이 작은 데이터 세트 크기 때문에 유사하게 수행한다는 것을 발견했습니다. [800, 1024]에서 무작위로 샘플링 한 이미지 스케일 (짧은 쪽)로 훈련하여 과적 합을 줄입니다. 추론은 1024 픽셀의 단일 스케일입니다. 우리는 GPU 당 1 이미지의 미니 배치 크기 (8 GPU 8)를 사용하여 학습 속도 0.01부터 시작하여 18k 반복에서 0.001로 24k 반복 모델을 학습시킵니다. 이 설정에서는 단일 8-GPU 시스템에서 약 4 시간의 교육이 필요합니다.

ENG

KOR

Results: Table 7 compares our results to the state of the art on the val and test sets. Without using the coarse training set, our method achieves 26.2 AP on test, which is over 30% relative improvement over the previous best entry (DIN 255), and is also better than the concurrent work of SGN’s 25.0 256. Both DIN and SGN use fine + coarse data. Compared to the best entry using fine data only (17.4 AP), we achieve a ∼50% improvement.

결과 : 표 7은 결과를 val 및 테스트 세트의 최신 상태와 비교합니다. 대략적인 훈련 세트를 사용하지 않고, 우리의 방법은 시험에서 26.2 AP를 달성하는데, 이는 이전의 최고 진입 (DIN 257)에 비해 30 % 이상의 상대 개선이며, SGN의 25.0 258의 동시 작업보다 우수합니다. DIN과 SGN은 모두 미세한 + 거친 데이터를 사용합니다. 미세 데이터 만 사용하는 최고 항목 (17.4 AP)과 비교하여 ~ 50 % 개선되었습니다.

ENG

KOR

For the person and car categories, the Cityscapes dataset exhibits a large number of within-category overlapping instances (on average 6 people and 9 cars per image). We argue that within-category overlap is a core difficulty of instance segmentation. Our method shows massive improvement on these two categories over the other best entries (relative ∼40% improvement on person from 21.8 to 30.5 and ∼20% improvement on car from 39.4 to 46.9), even though our method does not exploit the coarse data.

개인 및 자동차 범주의 경우 Cityscapes 데이터 세트는 범주 내에서 겹치는 많은 수의 인스턴스를 나타냅니다 (평균 6 명 및 이미지 당 9 대). 우리는 범주 내 중첩이 인스턴스 분할의 핵심 난이도라고 주장합니다. 비록 우리의 방법이 대략적인 데이터를 이용하지 않더라도 우리의 방법은 다른 최고의 항목들 (21.8에서 30.5에서 사람의 경우 ~ 40 % 개선 및 39.4에서 46.9에서 자동차의 ~ 20 % 개선)에 비해이 두 범주에서 크게 개선되었음을 보여줍니다.

ENG

KOR

A main challenge of the Cityscapes dataset is training models in a low-data regime, particularly for the categories of truck, bus, and train, which have about 200-500 training samples each. To partially remedy this issue, we further report a result using COCO pre-training. To do this, we initialize the corresponding 7 categories in Cityscapes from a pre-trained COCO Mask R-CNN model (rider being randomly initialized). We fine-tune this model for 4k iterations in which the learning rate is reduced at 3k iterations, which takes ∼1 hour for training given the COCO model.

Cityscapes 데이터 세트의 주요 과제는 특히 200,500 개의 훈련 샘플이있는 트럭, 버스 및 기차 범주에 대한 낮은 데이터 영역의 훈련 모델입니다. 이 문제를 부분적으로 해결하기 위해 COCO 사전 훈련을 사용하여 결과를 추가로보고합니다. 이를 위해 사전 훈련 된 COCO 마스크 R-CNN 모델 (라이더가 임의로 초기화 됨)에서 Cityscapes의 해당 7 개 범주를 초기화합니다. 학습 속도가 3k 반복으로 감소되는 4k 반복에 대해이 모델을 미세 조정합니다. COCO 모델을 고려할 때 학습에 약 1 시간이 소요됩니다.

ENG

KOR

The COCO pre-trained Mask R-CNN model achieves 32.0 AP on test, almost a 6 point improvement over the fine-only counterpart. This indicates the important role the amount of training data plays. It also suggests that methods on Cityscapes might be influenced by their lowshot learning performance. We show that using COCO pretraining is an effective strategy on this dataset.

COCO 사전 훈련 된 마스크 R-CNN 모델은 테스트시 32.0 AP를 달성하여 미세 전용 제품에 비해 거의 6 포인트 향상되었습니다. 이는 훈련 데이터의 양이 중요한 역할을한다는 것을 나타냅니다. 또한 Cityscapes의 방법이 낮은 학습 성과에 의해 영향을받을 수 있다고 제안합니다. 우리는 COCO 사전 훈련을 사용하는 것이이 데이터 세트에 효과적인 전략임을 보여줍니다.

ENG

KOR

Finally, we observed a bias between the val and test AP, as is also observed from the results of259260261. We found that this bias is mainly caused by the truck, bus, and train categories, with the fine-only model having val/test AP of 28.8/22.8, 53.5/32.2, and 33.0/18.6, respectively. This suggests that there is a domain shift on these categories, which also have little training data. COCO pre-training helps to improve results the most on these categories; however, the domain shift persists with 38.0/30.1, 57.5/40.9, and 41.2/30.9 val/test AP, respectively. Note that for the person and car categories we do not see any such bias (val/test AP are within ±1 point). Example results on Cityscapes are shown in Figure 8.

마지막으로262263264의 결과에서 볼 수 있듯이 val과 test AP 사이의 치우침을 관찰했습니다. 우리는이 편향이 주로 트럭, 버스 및 기차 범주에 의해 발생한다는 것을 알았습니다. 정밀한 모델의 Val / test AP가 각각 28.8 / 22.8, 53.5 / 32.2 및 33.0 / 18.6입니다. 이는 이러한 카테고리에 대한 교육 자료가 거의없는 도메인 이동이 있음을 나타냅니다. COCO 사전 교육은 이러한 범주에서 결과를 가장 많이 향상시키는 데 도움이됩니다. 그러나 도메인 이동은 각각 38.0 / 30.1, 57.5 / 40.9 및 41.2 / 30.9 val / test AP로 지속됩니다. 개인 및 자동차 카테고리의 경우 이러한 편차가 표시되지 않습니다 (val / test AP가 ± 1 포인트 이내). Cityscapes에 대한 예제 결과는 그림 8에 나와 있습니다.

Appendix B: Enhanced Results on COCO

ENG

KOR

As a general framework, Mask R-CNN is compatible with complementary techniques developed for detection/segmentation, including improvements made to Fast/Faster R-CNN and FCNs. In this appendix we describe some techniques that improve over our original results. Thanks to its generality and flexibility, Mask R-CNN was used as the framework by the three winning teams in the COCO 2017 instance segmentation competition, which all significantly outperformed the previous state of the art.

일반적인 프레임 워크로서 Mask R-CNN은 Fast / Faster R-에 대한 개선을 포함하여 탐지 / 세그먼트를 위해 개발 된 보완 기술과 호환됩니다. CNN 및 FCN. 이 부록에서는 원래 결과보다 개선 된 몇 가지 기술에 대해 설명합니다. 일반 성과 유연성 덕분에 Mask R-CNN은 COCO 2017 인스턴스 세그먼테이션 경쟁에서 3 개의 우승 팀이 프레임 워크로 사용했으며, 이는 이전의 최신 기술을 모두 능가했습니다.

Instance Segmentation and Object Detection

ENG

KOR

We report some enhanced results of Mask R-CNN in Table 8. Overall, the improvements increase mask AP 5.1 points (from 36.7 to 41.8) and box AP 7.7 points (from 39.6 to 47.3). Each model improvement increases both mask AP and box AP consistently, showing good generalization of the Mask R-CNN framework. We detail the improvements next. These results, along with future updates, can be reproduced by our released code at https://github.com/facebookresearch/Detectron, and can serve as higher baselines for future research.

표 8에 마스크 R-CNN의 일부 향상된 결과가보고되어 있습니다. 전반적으로, 개선 사항은 마스크 AP 5.1 포인트 (36.7에서 41.8로) 및 박스 AP 7.7 포인트 (39.6에서 47.3로 증가)입니다. ). 각 모델 개선은 마스크 AP와 박스 AP를 일관되게 증가시켜 마스크 R-CNN 프레임 워크의 일반화를 보여줍니다. 다음 개선 사항을 자세히 설명합니다. 이 결과는 향후 업데이트와 함께 https://github.com/facebookresearch/Detectron 의 출시 된 코드로 재현 할 수 있으며 향후 연구를위한 더 높은 기준선이 될 수 있습니다.

ENG

KOR

Updated baseline: We start with an updated baseline with a different set of hyper-parameters. We lengthen the training to 180k iterations, in which the learning rate is reduced by 10 at 120k and 160k iterations. We also change the NMS threshold to 0.5 (from a default value of 0.3). The updated baseline has 37.0 mask AP and 40.5 box AP.

업데이트 된 기준 : 다른 하이퍼 파라미터 세트로 업데이트 된 기준으로 시작합니다. 학습을 180k 반복으로 연장하여 120k 및 160k 반복에서 학습 속도가 10 씩 줄어 듭니다. 또한 NMS 임계 값을 0.5 (기본값 0.3에서)로 변경합니다. 업데이트 된 기준선에는 37.0 마스크 AP와 40.5 상자 AP가 있습니다.

ENG

KOR

End-to-end training: All previous results used stagewise training, i.e., training RPN as the first stage and Mask R-CNN as the second. Following 265, we evaluate endto-end (‘e2e’) training that jointly trains RPN and Mask RCNN. We adopt the ‘approximate’ version in 266 that only computes partial gradients in the RoIAlign layer by ignoring the gradient w.r.t. RoI coordinates. Table 8 shows that e2e training improves mask AP by 0.6 and box AP by 1.2.

엔드-투-엔드 교육 : 이전의 모든 결과는 단계별 교육 즉, RPN을 첫 번째 단계로 훈련하고 마스크 R-CNN을 두 번째 단계로 훈련했습니다. 267에 이어, 우리는 RPN과 Mask RCNN을 공동으로 훈련시키는 종단 간 ( 'e2e') 훈련을 평가합니다. 그라디언트 wrt RoI 좌표를 무시하여 RoIAlign 레이어의 부분 그라디언트 만 계산하는 268의 '대략'버전을 채택합니다. 표 8은 e2e 훈련이 마스크 AP를 0.6으로, 박스 AP를 1.2로 개선 함을 보여줍니다.

ENG

KOR

ImageNet-5k pre-training: Following 269, we experiment with models pre-trained on a 5k-class subset of ImageNet (in contrast to the standard 1k-class subset). This 5× increase in pre-training data improves both mask and box 1 AP. As a reference, 270 used ∼250× more images (300M) and reported a 2-3 box AP improvement on their baselines.

ImageNet-5k 프리 트레이닝 : 271에 따라 ImageNet의 5k 클래스 서브 세트 (표준 1k 클래스 서브 세트와 대조적으로)에서 사전 트레이닝 된 모델을 실험합니다. 사전 훈련 데이터가 5 배 증가하면 마스크와 박스 1 AP가 모두 향상됩니다. 참고로 272은 약 250 배 더 많은 이미지 (300M)를 사용했으며 기준선에서 2-3 박스 AP 개선을보고했습니다.

ENG

KOR

Train-time augmentation: Scale augmentation at train time further improves results. During training, we randomly sample a scale from [640, 800] pixels and we increase the number of iterations to 260k (with the learning rate reduced by 10 at 200k and 240k iterations). Train-time augmentation improves mask AP by 0.6 and box AP by 0.8.

훈련 시간 확대 : 훈련 시간의 스케일 확대는 결과를 더욱 향상시킵니다. 훈련하는 동안 [640, 800] 픽셀에서 무작위로 스케일을 샘플링하고 반복 횟수를 260k로 늘립니다 (200k 및 240k 반복에서 학습 속도가 10 감소). Train-time augmentation은 마스크 AP를 0.6으로, 박스 AP를 0.8로 향상시킵니다.

ENG

KOR

Model architecture: By upgrading the 101-layer ResNeXt to its 152-layer counterpart 273, we observe an increase of 0.5 mask AP and 0.6 box AP. This shows a deeper model can still improve results on COCO.

모델 아키텍처 : 101-layer ResNeXt를 152-layer 대응 274으로 업그레이드함으로써 0.5 마스크 AP와 0.6 박스 AP의 증가를 관찰 할 수 있습니다. 이것은 더 깊은 모델이 여전히 COCO의 결과를 개선 할 수 있음을 보여줍니다.

ENG

KOR

Using the recently proposed non-local (NL) model 275, we achieve 40.3 mask AP and 45.0 box AP. This result is without test-time augmentation, and the method runs at 3fps on an Nvidia Tesla P100 GPU at test time.

최근 제안 된 비 로컬 (NL) 모델 276을 사용하여 40.3 마스크 AP와 45.0 박스 AP를 달성했습니다. 이 결과는 테스트 시간을 늘리지 않고 테스트 시간에 Nvidia Tesla P100 GPU에서 3fps로 실행됩니다.

ENG

KOR

Test-time augmentation: We combine the model results evaluated using scales of [400, 1200] pixels with a step of 100 and on their horizontal flips. This gives us a singlemodel result of 41.8 mask AP and 47.3 box AP.

테스트 시간 확대 : [400, 1200] 픽셀의 스케일을 사용하여 평가 된 모델 결과와 100 단계 및 수평 플립을 결합합니다. 이것은 우리에게 41.8 마스크 AP와 47.3 박스 AP의 단일 모델 결과를 제공합니다.

ENG

KOR

The above result is the foundation of our submission to the COCO 2017 competition (which also used an ensemble, not discussed here). The first three winning teams for the instance segmentation task were all reportedly based on an extension of the Mask R-CNN framework.

위의 결과는 COCO 2017 대회에 제출 한 결과입니다 (여기서는 논의되지 않은 앙상블 사용). 인스턴스 세그먼테이션 작업에서 처음 3 개의 수상 팀은 모두 Mask R-CNN 프레임 워크의 확장을 기반으로 한 것으로보고되었습니다.

Keypoint Detection

ENG

KOR

We report enhanced results of keypoint detection in Table 9. As an updated baseline, we extend the training schedule to 130k iterations in which the learning rate is reduced by 10 at 100k and 120k iterations. This improves APkp by about 1 point. Replacing ResNet-50 with ResNet-101 and ResNeXt-101 increases APkp to 66.1 and 67.3, respectively.

표 9에 키포인트 감지의 향상된 결과를보고합니다. 업데이트 된 기준으로 학습 속도가 100k 및 120k 반복에서 10 씩 감소되는 130k 반복으로 교육 일정을 확장합니다. 이는 APkp를 약 1 포인트 향상시킵니다. ResNet-50을 ResNet-101 및 ResNeXt-101로 교체하면 APkp가 각각 66.1 및 67.3으로 증가합니다.

ENG

KOR

With a recent method called data distillation 277, we are able to exploit the additional 120k unlabeled images provided by COCO. In brief, data distillation is a self-training strategy that uses a model trained on labeled data to predict annotations on unlabeled images, and in turn updates the model with these new annotations. Mask R-CNN provides an effective framework for such a self-training strategy. With data distillation, Mask R-CNN APkp improve by 1.8 points to 69.1. We observe that Mask R-CNN can benefit from extra data, even if that data is unlabeled.

최근 데이터 증류 (data distillation) 278라는 방법을 사용하여 COCO에서 제공하는 추가 120k 레이블이없는 이미지를 활용할 수 있습니다. 간단히 말해서, 데이터 증류는 레이블이 지정되지 않은 이미지에 대한 주석을 예측하기 위해 레이블이 지정된 데이터에 대해 훈련 된 모델을 사용하고 이러한 새로운 주석으로 모델을 업데이트하는 자체 학습 전략입니다. 마스크 R-CNN은 이러한 자체 교육 전략을위한 효과적인 프레임 워크를 제공합니다. 데이터 증류를 통해 Mask R-CNN APkp는 1.8 포인트 69.1로 향상되었습니다. 데이터가 레이블이 지정되지 않은 경우에도 Mask R-CNN은 추가 데이터의 이점을 얻을 수 있습니다.

ENG

KOR

By using the same test-time augmentation as used for instance segmentation, we further boost APkp to 70.4.

예를 들어 세그먼테이션에 사용 된 것과 동일한 테스트 시간 기능 보강을 사용하여 APkp를 70.4로 추가로 향상시킵니다.

ENG

KOR

Acknowledgements: We would like to acknowledge Ilija Radosavovic for contributions to code release and enhanced results, and the Caffe2 team for engineering support.

감사의 말 : Ilija Radosavovic가 코드 릴리스 및 개선 된 결과에 기여한 것에 대해, Caffe2 팀은 엔지니어링 지원에 감사드립니다.

Documentation

Mask R-CNN
https://arxiv.org/abs/1703.06870
1703.06870.pdf

See also

References


  1. M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014. 8 

  2. P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and ´ J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2 

  3. A. Arnab and P. H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 3, 9 

  4. M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 3, 9 

  5. S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Insideoutside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 5 

  6. Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR, 2017. 7, 8 

  7. M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The Cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 9 

  8. J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2 

  9. J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2 

  10. J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016. 2, 3, 4, 5, 6 

  11. J. Dai, Y. Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In NIPS, 2016. 2 

  12. R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 4, 6 

  13. R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 2, 3 

  14. R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutional neural networks. In CVPR, 2015. 4 

  15. B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul- ´ taneous detection and segmentation. In ECCV. 2014. 2 

  16. B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Hyper- ´ columns for object segmentation and fine-grained localization. In CVPR, 2015. 2 

  17. Z. Hayder, X. He, and M. Salzmann. Shape-aware instance segmentation. In CVPR, 2017. 9 

  18. K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014. 1, 2 

  19. K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 2, 4, 7, 10 

  20. J. Hosang, R. Benenson, P. Dollar, and B. Schiele. What ´ makes for effective detection proposals? PAMI, 2015. 2 

  21. J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017. 2, 3, 4, 6, 7 

  22. M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 4 

  23. A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: from edges to instances with multicut. In CVPR, 2017. 3, 9 

  24. A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 2 

  25. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989. 2 

  26. Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. 2, 3, 5, 6 

  27. T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´ S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 2, 4, 5, 7 

  28. T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft COCO: Com- ´ mon objects in context. In ECCV, 2014. 2, 5 

  29. S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV, 2017. 3, 9 

  30. J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 3, 6 

  31. V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. 4 

  32. G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multiperson pose estimation in the wild. In CVPR, 2017. 8 

  33. P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015. 2, 3 

  34. P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learn- ´ ing to refine object segments. In ECCV, 2016. 2, 3 

  35. I. Radosavovic, P. Dollar, R. Girshick, G. Gkioxari, and ´ K. He. Data distillation: Towards omni-supervised learning. arXiv:1712.04440, 2017. 10 

  36. S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 3, 4, 7 

  37. S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In TPAMI, 2017. 10 

  38. A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. In CVPR, 2016. 2, 5 

  39. A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 4, 7 

  40. C. Sun, A. Shrivastava, S. Singh, and A. Gupta. Revisiting unreasonable effectiveness of data in deep learning era. In ICCV, 2017. 10 

  41. C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. In ICLR Workshop, 2016. 7 

  42. J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013. 2 

  43. X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. arXiv:1711.07971, 2017. 10 

  44. S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016. 8 

  45. S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He. Aggregated ´ residual transformations for deep neural networks. In CVPR, 2017. 4, 10