RTMDet
RTMDet: An Empirical Study of Designing Real-Time Object Detectors
Abstract
- YOLO 시리즈보다 real-time object detection 잘함
- instance segmentation 과 같은 tasks에 쉽게 확장 가능
- segmentation task는 detection task에 비해, output feature resolution이 너무 작으면 성능이 떨어집니다.
- 아래의 구조 덕분에, backbone 과 neck에 호환 가능한 capacity를 가진 architecture를 제안(한 부분이 다른 부분의 성능이나 용량에 제한을 받지 않도록 고려된 구조)
- large-kernel depth-wise convolutions로 구성된 basic building block (backbone과 neck모두 같은 basic building block을 씀)
- depth-wise convolution 개념과 쓰는 이유: https://velog.io/@hsbc/depth-wise-separable-convolution
- (dynamic label assignment 문제에서,) matching cost를 계산할 때 soft labels를 도입함으로써, 정확도를 높임
Simple Example
MMDetection#Simple Example 항목 참조.
내부 테스트 결과
- mmdetection으로 측정
- NVIDIA GeForce RTX 2080 Ti
- rtmdet-ins_x_8xb16-300e_coco 약 0.056초 (56 ms)
- rtmdet-ins_s_8xb32-300e_coco 약 0.023초 (23 ms)
- rtmdet-ins_x_8xb16-300e_coco_dongkuk_rolling_plate_cam1_2nd.py 모델 사용.
- 3840x2160 (4K Original) - 0.0161s ~ 0.0176s (약 17ms)
- 1660x1926 (ROI Crop) - 0.0159s ~ 0.0182s (약 18ms) - 그냥 이미지 크기에 영향 받지 않는다고 생각하면 될듯.
Documentation
- [2212.07784] RTMDet - An Empirical Study of Designing Real-Time Object Detectors
- https://arxiv.org/abs/2212.07784