Key points are not available for this paper at this time.
Die multimodale Suche hat zunehmend an Bedeutung gewonnen, um Benutzern eine natürliche und effektive Möglichkeit zu bieten, ihre Suchintentionen auszudrücken. Bilder bieten feingliederte Details der gewünschten Produkte, während Text es ermöglicht, Suchmodifikationen einfach zu integrieren. Allerdings sind einige bestehende multimodale Suchsysteme unzuverlässig und können einfache Anfragen nicht richtig beantworten. Das Problem wird durch die große Variabilität natürlicher Spracheingaben komplizierter, da diese mehrdeutige, implizite und irrelevante Informationen enthalten können. Die Behebung dieser Probleme könnte Systeme mit verbesserten Abgleichfähigkeiten, Schlussfolgerungsfähigkeiten und kontextsensitiver Anfrage-Analyse und -Neuschreibung erfordern. Dieses Papier führt ein neuartiges multimodales Suchmodell ein, das einen neuen Leistungsmeilenstein im Fashion200K-Datensatz erreicht. Darüber hinaus schlagen wir eine neue Suchschnittstelle vor, die große Sprachmodelle (LLMs) integriert, um die Interaktion in natürlicher Sprache zu erleichtern. Diese Schnittstelle leitet Anfragen an Suchsysteme weiter, während sie konversationsartig mit Benutzern interagiert und frühere Suchen berücksichtigt. In Verbindung mit unserem multimodalen Suchmodell läutet es eine neue Ära von Shopping-Assistenten ein, die in der Lage sind, menschenähnliche Interaktionen zu bieten und das gesamte Sucherlebnis zu verbessern.
Barbany et al. (Wed.) haben diese Frage untersucht.