Key points are not available for this paper at this time.
최근의 다중 모달 대형 언어 모델(MLLM)인 GPT-4o 및 GPT-4v는 자율주행에서 큰 잠재력을 보여주었습니다. 본 논문에서는 MLLM을 기반으로 교통 신호 인식을 향상시키기 위한 교차 도메인 몇 샷 인컨텍스트 학습 방법을 제안합니다. 먼저 비전 트랜스포머 어댑터를 기반으로 하는 교통 신호 탐지 네트워크와 원본 도로 이미지에서 교통 신호를 추출하기 위한 추출 모듈을 구성합니다. 훈련 데이터에 대한 의존도를 줄이고 교차 국가 TSR의 성능 안정성을 향상시키기 위해, MLLM을 기반으로 한 교차 도메인 몇 샷 인컨텍스트 학습 방법을 도입합니다. MLLM의 교통 신호에 대한 세부 인식 능력을 향상시키기 위해, 제안된 방법은 템플릿 교통 신호를 사용하여 해당 설명 텍스트를 생성합니다. 이 설명 텍스트는 교통 신호의 형태, 색상 및 구성에 대한 주요 정보를 포함하고 있어 MLLM이 세부적인 교통 신호 범주를 인식할 수 있도록 자극합니다. 설명 텍스트를 사용함으로써, 우리의 방법은 템플릿과 실제 교통 신호 간의 교차 도메인 차이를 줄입니다. 우리의 접근법은 대규모 교통 신호 이미지와 레이블이 필요하지 않고 단순하고 균일한 텍스트 표시만을 요구합니다. 우리는 독일 교통 신호 인식 기준 데이터 세트, 벨기에 교통 신호 데이터 세트, 일본에서 수집한 두 개의 실제 데이터 세트에 대해 포괄적인 평가를 수행합니다. 실험 결과는 우리의 방법이 TSR 성능을 현저하게 향상시킨다는 것을 보여줍니다.
Gan 외 (Mon,)은 이 질문을 연구했습니다.