머신 비전 애플리케이션의 객체 감지를 위한 변환기 모델의 장점

자율 주행, 스마트 제조, 감시 등 머신 비전 애플리케이션에서는 정확한 물체 감지가 중요합니다. YOLO, Faster R-CNN, Mask R-CNN, RetinaNet 등 다양한 AI 모델이 이미지나 비디오에서 객체를 감지하고 해석하기 위해 수년에 걸쳐 개발되었습니다. 그러나 변환기 모델은 객체 감지를 위한 보다 효과적인 솔루션으로 등장했습니다.

인간의 시각 시스템은 크기, 색상, 깊이를 기준으로 물체를 빠르게 식별하는 동시에 관련 없는 배경 세부 정보를 필터링할 수 있습니다. 마찬가지로 AI 모델은 중요한 개체에 집중하고 배경을 필터링하여 정확하게 분류할 수 있어야 합니다. 이를 위해서는 대상 개체를 캡처하고 모델의 훈련을 기반으로 예측을 해야 합니다.

오늘날 머신 비전 시스템은 특수 이미지 신호 처리(ISP) 블록에 공급되는 이미지 센서와 렌즈를 사용합니다. 그런 다음 이 블록의 출력은 추가 분석을 위해 가속기 또는 범용 CPU에 의해 처리됩니다.

객체 감지 요구 사항은 애플리케이션에 따라 다릅니다. 감시 및 공장 시나리오에서 머신 비전은 생산 라인의 인원 수를 계산하거나 결함을 감지하는 데 사용될 수 있습니다. 자동차 애플리케이션에서 머신 비전은 자동 비상 제동 및 차선 유지 보조와 같은 첨단 운전자 지원 시스템(ADAS)에 사용됩니다.

O2DETR(Oriented Object Protection with Transformer) 및 DETR(Detection TRansformer)을 포함한 Transformer 모델은 Faster R-CNN과 같은 기존 모델에 비해 몇 가지 장점을 제공합니다. 이 제품은 더 단순한 디자인을 갖고 있으며 단일 패스, 엔드투엔드 개체 감지 접근 방식을 사용합니다. 예를 들어 DETR은 일련의 예측 손실과 함께 변환기 인코딩 및 디코딩을 사용하여 예측과 실제값 간의 일치를 강제합니다.

앵커 박스와 비최대 억제에 의존하는 기존 모델과 달리 DETR과 같은 변환기 모델은 데이터를 병렬로 처리하고 이러한 추가 단계 없이 겹치는 객체를 처리할 수 있습니다. 이를 통해 변환기 모델이 객체 감지에 더욱 효율적이고 정확해집니다.

결론적으로, 변환기 모델은 머신 비전 애플리케이션에서 객체 감지에 혁명을 일으켰습니다. 중요한 개체를 캡처하고, 배경 세부 정보를 필터링하고, 개체를 정확하게 분류하는 기능으로 인해 기존 모델보다 선호되는 선택입니다. 하드웨어 및 소프트웨어 개발의 발전은 센서 입력과 고급 머신 비전 기능에 의존하는 자율주행차의 기반을 마련하고 있습니다.