Key points are not available for this paper at this time.
일반 재사용 가능한 사전 훈련된 이미지 표현 인코더는 많은 컴퓨터 비전 작업에 대한 방법의 표준 구성 요소가 되었습니다. 그러나 로봇을 위한 시각적 표현으로서 그 유용성은 제한적이어서, 로봇 작업에 더 적합한 로봇 전용 이미지 인코더를 사전 훈련하기 위한 최근 노력의 물결이 일어나고 있습니다. 우리는 Transformer에서 장면 객체(SOFT)라는 이름의 포장을 제안하며, 이는 이 격차를 추가 교육 없이 메우는 사전 훈련된 비전 변환기(PVT) 모델입니다. 최종 레이어 활성화만으로 표현을 구성하는 대신, SOFT는 PVT 주의에서 물체와 유사한 엔티티를 구체화하고 위치를 식별하며, 이를 PVT 활성화로 설명하여 물체 중심 임베딩을 생성합니다. 다양한 일반적으로 사전 훈련된 비전 변환기 PVT의 표준 선택에서 우리는 각 경우에 대해 SOFT(PVT)에서 훈련된 정책이 시뮬레이션 및 실제 환경의 조작 작업에 대해 표준 PVT 표현을 훨씬 능가함을 입증하였으며, 최신 로봇 인식 표현에 가까워지고 있습니다. 코드, 부록 및 비디오: https://sites.google.com/view/robot-soft/
Qian et al. (금요일)이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: