Key points are not available for this paper at this time.
Das Aufkommen großer Sprachmodelle (LLMs) hat die Fähigkeiten zur Textverständnis und -generierung revolutioniert. Die multimodale Generierung zieht sowohl in der Industrie als auch in der Wissenschaft große Aufmerksamkeit auf sich, aber es gibt nur wenig Arbeiten zur personalisierten Generierung, die wichtige Anwendungen wie Empfehlungssysteme hat. Dieses Papier schlägt die erste Methode zur personalisierten multimodalen Generierung unter Verwendung von LLMs vor, zeigt deren Anwendungen und validiert deren Leistung durch eine umfangreiche experimentelle Studie an zwei Datensätzen. Die vorgeschlagene Methode, Personalisierte Multimodale Generierung (kurz PMG), konvertiert zunächst das Nutzerverhalten (z. B. Klicks in Empfehlungssystemen oder Gespräche mit einem virtuellen Assistenten) in natürliche Sprache, um das Verständnis der LLMs zu erleichtern und Benutzerpräferenzbeschreibungen zu extrahieren. Solche Benutzerpräferenzen werden dann in einen Generator, wie ein multimodales LLM oder ein Diffusionsmodell, eingespeist, um personalisierte Inhalte zu erzeugen. Um Benutzerpräferenzen umfassend und genau zu erfassen, schlagen wir vor, dass das LLM eine Kombination aus expliziten Schlüsselwörtern und impliziten Einbettungen ausgibt, um Benutzerpräferenzen darzustellen. Dann werden die Kombination von Schlüsselwörtern und Einbettungen als Eingabeaufforderungen verwendet, um den Generator zu konditionieren. Wir optimieren eine gewichtete Summe aus Genauigkeit und Präferenzwerten, sodass der generierte Inhalt ein gutes Gleichgewicht zwischen beiden hat. Im Vergleich zu einer Basismethode ohne Personalisierung zeigt PMG eine signifikante Verbesserung der Personalisierung von bis zu 8% in Bezug auf LPIPS, während die Genauigkeit der Generierung beibehalten wird.
Shen et al. (Samstag) haben diese Frage untersucht.