Key points are not available for this paper at this time.
トランスフォーマーは自然言語処理(NLP)において非常に優れた成果を上げており、研究者たちはコンピュータビジョンにおけるその可能性を研究しています。その一例がビジョントランスフォーマー(ViT)であり、固定サイズのパッチのシーケンスを通じて画像を分類するために純粋なトランスフォーマー構造を使用しています。しかし、すべての画像に同じパッチ埋め込み手法に依存することはプロセスの過度の単純化と見なされます。この制限に応えるために、我々は画像の特徴に基づいてパッチ埋め込みのシーケンスを動的に生成するスーパー・ピクセルスライシング方式を提案します。このシーケンスは、同じオブジェクトのスライスをまとめる進行的な位置エンコーディングを作成するために利用されます。我々の手法は、既存のトランスフォーマー・フレームワークにシームレスに統合され、スーパー・ピクセルスライシング付きのエンドツーエンドのビジョントランスフォーマー(SSVT)を形成します。我々の実証結果は、SSVTが画像分類タスクにおいてトランスフォーマーに基づくモデルの性能を大幅に向上させることを示しています。
Lu et al. (Sun) はこの問題を研究しました。
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: