May 24, 2024Open Access

물체 중심 장면 인코더로서의 일반적으로 재사용 가능한 사전 훈련된 비전 변환기 재구성 조작 정책을 위한

Key Points

Key points are not available for this paper at this time.

Abstract

일반 재사용 가능한 사전 훈련된 이미지 표현 인코더는 많은 컴퓨터 비전 작업에 대한 방법의 표준 구성 요소가 되었습니다. 그러나 로봇을 위한 시각적 표현으로서 그 유용성은 제한적이어서, 로봇 작업에 더 적합한 로봇 전용 이미지 인코더를 사전 훈련하기 위한 최근 노력의 물결이 일어나고 있습니다. 우리는 Transformer에서 장면 객체(SOFT)라는 이름의 포장을 제안하며, 이는 이 격차를 추가 교육 없이 메우는 사전 훈련된 비전 변환기(PVT) 모델입니다. 최종 레이어 활성화만으로 표현을 구성하는 대신, SOFT는 PVT 주의에서 물체와 유사한 엔티티를 구체화하고 위치를 식별하며, 이를 PVT 활성화로 설명하여 물체 중심 임베딩을 생성합니다. 다양한 일반적으로 사전 훈련된 비전 변환기 PVT의 표준 선택에서 우리는 각 경우에 대해 SOFT(PVT)에서 훈련된 정책이 시뮬레이션 및 실제 환경의 조작 작업에 대해 표준 PVT 표현을 훨씬 능가함을 입증하였으며, 최신 로봇 인식 표현에 가까워지고 있습니다. 코드, 부록 및 비디오: https://sites.google.com/view/robot-soft/

물체 중심 장면 인코더로서의 일반적으로 재사용 가능한 사전 훈련된 비전 변환기 재구성 조작 정책을 위한

Key Points

Abstract

Cite This Study

Also Consider

Also Consider