논문 리뷰 - Fast RCNN

Fast RCNN Paper URL : https://arxiv.org/pdf/1504.08083.pdf

Fast RCNN이 나오게 된 배경

이름에도 알수있듯이 Fast RCNN은 기존의 RCNN의 문제점을 해결하고자 나온 모델이다.
RCNN은 높은 정확도를 제공했지만, 여러 단점이 존재했다. 다단계 훈련과정, 시간과 공간적으로 비효율적인 훈련, 느린 탐지속도가 제일 큰 단점이였다. 이러한 문제를 더 효율적이고 빠른 훈련과 탐지 방법의 필요성이 대두되면서 해당 요구를 충족하기 위해 나온 모델이다.

Fast RCNN의 목표와 가설

목표 : Fast R-CNN의 목표는 RCNN과 SPPnet의 단점을 보완하면서도, 객체 탐지의 속도와 정확성을 향상시키는 것이다.
가설 : 단일 네트워크가 객체 제안을 동시에 분류하고 공간적 위치를 정교화함으로써, 기존 방식보다 더 효율적이고 정확한 객체 탐지가 가능할 것이라는 가설을 제시한다.

Fast RCNN

FastRCNN-Architecture

전체 이미지를 CNN에 통과시켜 Feature Map을 추출한다.
Selective Search로 찾은 RoI를 Feature Map에 직접 투영(project)한다.
🥕

실제 RoI는 별도로 Conv layer를 거치지 않지만, 전체 이미지가 ConvNet을 거쳐 생성된 feature map에 RoI를 투영(projection)하므로, 마치 CNN을 거친 것처럼 처리된다. RoI가 원본 이미지의 대응하는 부분에서 ConvNet을 통해 추출된 특성을 활용한다는 것을 의미한다.

*투영 : RoI가 지정하는 원본 이미지의 영역이 CNN을 통해 얻어진 feature map 상에서 어디에 해당하는지 찾아내고(매핑시킴), 그 영역에서 특성을 추출하여 객체 탐지에 이용하는 것이다.
RoI pooling 계층을 사용하여 각 RoI에 대한 고정된 길이의 Feature Vector를 추출한다.
🥕

RoI Pooling은 무엇인가?

SPPnet에서 나온 개념으로 먼저 이미지를 CNN에 통과 시켜 feature map을 추출하고, 4*4, 2*2, 1*1 영역의 피라미드로 feature map을 나누고, max pooling을 적용하여 하나의 값을 추출하여 최종적으로 피라미드 크기만큼 max 값을 추출한다.
투영(projection) 시킨 RoI에 대해 RoI Pooling(7x7)을 진행하여 고정된 크기의 feature vector를 얻는다.
feature vector는 FC layer를 통과하면 softmax와 bbox regressor로 나눌 수 있다.
softmax의 경우RoI에 대해 object classification을 진행한다.
bounding box regression는 selective search로 찾은 box의 위치를 조정한다.

Fast RCNN에서는 왜 RoI Pooling을 사용했을까?

크기 통일 : RoI Pooling을 사용하게 되면 다양한 크기와 형태의 RoI를 고정된 크기의 출력으로 변환할 수있다. 그래서 CNN Input은 마음대로 넣고 FC layer 직전에 크기를 고정 시킨다.
연산 효율성 : 전체 이미지에 대해 한 번의 CNN처리를 수행한 후 RoI Pooling을 통해 필요한 부분만 추출함으로써 연산을 효율적으로 수행할 수 있다.
정확도 향상 : 원본 이미지의 위치를 보존하면서 좋은 품질의 특성을 추출하기 때문에 객체 탐지의 정확도가 높다.

Fast RCNN 결론

R-CNN의 복잡한 다단계 학습 프로세스(따로 CNN, SVM, 및 bounding box regression을 학습)이지만, Fast RCNN은 이런 복잡한 파이프라인을 간소화 시켰다. 그리고 RoI Pooling을 도입하면서 다양한 크기의 객체들을 효과적으로 처리하고 빠른 속도로 기존의 RCNN 보다 높은 정확도를 보였다.