June 6, 2024Open Access

Die Zero-Shot-Fähigkeiten von Vision-Sprach-Modellen zur Verbesserung des Gaze-Following erkunden

Key Points

Key points are not available for this paper at this time.

Abstract

Kontextuelle Hinweise, die mit der Pose einer Person und deren Interaktionen mit Objekten und anderen Personen in der Szene verbunden sind, können wertvolle Informationen für das Gaze-Following liefern. Während bestehende Methoden sich auf spezielle Hinweisextraktionsmethoden konzentriert haben, untersuchen wir in dieser Arbeit die Zero-Shot-Fähigkeiten von Vision-Language Models (VLMs) zur Extraktion einer Vielzahl kontextueller Hinweise, um die Leistung des Gaze-Following zu verbessern. Zunächst bewerten wir verschiedene VLMs, Aufforderungsstrategien und In-Context-Learning (ICL)-Techniken für die Leistung der Zero-Shot-Hinweiserkennung. Anschließend nutzen wir diese Erkenntnisse, um kontextuelle Hinweise für das Gaze-Following zu extrahieren, und untersuchen deren Einfluss, wenn sie in ein modernes Modell für diese Aufgabe integriert werden. Unsere Analyse zeigt, dass BLIP-2 insgesamt das bestperformende VLM ist und dass ICL die Leistung verbessern kann. Wir beobachten auch, dass VLMs empfindlich auf die Wahl des Textprompts reagieren, obwohl das Ensemble mehrerer Textprompts eine robustere Leistung bieten kann. Darüber hinaus entdecken wir, dass die Verwendung des gesamten Bildes zusammen mit einer um die Zielperson gezogenen Ellipse die effektivste Strategie für visuelles Prompting ist. Für das Gaze-Following führt die Einbeziehung der extrahierten Hinweise zu einer besseren Generalisierungsleistung, insbesondere wenn ein größeres Set von Hinweisen berücksichtigt wird, was das Potenzial dieses Ansatzes unterstreicht.

Die Zero-Shot-Fähigkeiten von Vision-Sprach-Modellen zur Verbesserung des Gaze-Following erkunden

Key Points

Abstract

Cite This Study

Also Consider

Also Consider