이 보고서에서는 YOLO 시리즈의 몇 가지 경험적인 개선점을 소개하며, 새로운 고성능 검출기인 YOLOX를 형성합니다. 우리는 YOLO 검출기를 앵커 없는 방식으로 전환하고, 분리된 헤드 및 선도적인 레이블 할당 전략인 SimOTA와 같은 고급 검출 기술을 수행하여 다양한 모델에서 최첨단 결과를 달성합니다: 0.91M 파라미터와 1.08G FLOPs만을 가진 YOLO-Nano의 경우, COCO에서 25.3% AP를 달성하여 NanoDet보다 1.8% AP를 초과합니다; 업계에서 가장 널리 사용되는 검출기 중 하나인 YOLOv3의 경우, COCO에서 47.3% AP로 향상시켜 현재의 최상 관행을 3.0% AP 초과합니다; 약 YOLOv4-CSP, YOLOv5-L과 동일한 파라미터를 가진 YOLOX-L의 경우, Tesla V100에서 초당 68.9 FPS 속도로 COCO에서 50.0% AP를 달성하며 YOLOv5-L을 1.8% AP 초과합니다. 더 나아가, 우리는 CVPR 2021에서 자율 주행 워크숍인 Streaming Perception Challenge에서 단일 YOLOX-L 모델을 사용하여 1위에 오르는 쾌거를 이루었습니다. 이 보고서가 개발자와 연구자들에게 실용적인 장면에서 유용한 경험을 제공할 수 있기를 바라며, ONNX, TensorRT, NCNN 및 Openvino를 지원하는 배포 버전도 제공합니다. 소스 코드는 https://github.com/Megvii-BaseDetection/YOLOX에 있습니다.
Ge et al. (Sun,)은 이 문제를 연구하였습니다.