Key points are not available for this paper at this time.
Prompt-Lernmethoden gewinnen zunehmend an Aufmerksamkeit aufgrund ihrer Fähigkeit, große Vision-Language-Modelle an neue Domänen anzupassen, indem sie vortrainiertes kontextuelles Wissen und minimale Trainingsdaten nutzen. Bestehende Arbeiten basieren jedoch typischerweise auf der Optimierung einheitlicher Eingabeaufforderungen und haben oft Schwierigkeiten mit fein-granularen Klassifizierungsaufgaben aufgrund unzureichender diskriminierender Merkmale. Um dies anzugehen, betrachten wir einen neuen Rahmen, der auf einem dualen Kontext aus sowohl domänenspezifischen als auch klassenspezifischen Kontexten basiert, wobei Letzterer durch große Sprachmodelle (LLMs) wie GPTs generiert wird. Solche dualen Prompt-Methoden verbessern die Merkmalsrepräsentation des Modells, indem sie implizite und explizite Faktoren kombinieren, die im Wissen der LLMs kodiert sind. Darüber hinaus formulieren wir die Theorie des unbalancierten optimalen Transports (UOT), um die Beziehungen zwischen konstruierten Prompts und visuellen Tokens zu quantifizieren. Durch partielle Übereinstimmung kann UOT diskrete Sätze visueller Tokens und Prompt-Embeddings unter verschiedenen Massendistributionen richtig ausrichten, was besonders wertvoll ist, um irrelevante oder rauschende Elemente zu behandeln, und dafür zu sorgen, dass die Erhaltung der Masse die Transportlösungen nicht einschränkt. Darüber hinaus integrieren sich die Eigenschaften von UOT nahtlos mit der Bildaugmentation, wodurch der Trainingsstichprobenpool erweitert wird, während ein angemessener Abstand zwischen perturbierten Bildern und Eingabeaufforderungen gewahrt bleibt. Umfassende Experimente im Bereich der Few-Shot-Klassifikation und Adapter-Setups belegen die Überlegenheit unseres Modells gegenüber aktuellen state-of-the-art Baselines.
Nguyen et al. (Fr,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: