April 6, 2024Open Access

PMG: Personalisierte multimodale Generierung mit großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Das Aufkommen großer Sprachmodelle (LLMs) hat die Fähigkeiten zur Textverständnis und -generierung revolutioniert. Die multimodale Generierung zieht sowohl in der Industrie als auch in der Wissenschaft große Aufmerksamkeit auf sich, aber es gibt nur wenig Arbeiten zur personalisierten Generierung, die wichtige Anwendungen wie Empfehlungssysteme hat. Dieses Papier schlägt die erste Methode zur personalisierten multimodalen Generierung unter Verwendung von LLMs vor, zeigt deren Anwendungen und validiert deren Leistung durch eine umfangreiche experimentelle Studie an zwei Datensätzen. Die vorgeschlagene Methode, Personalisierte Multimodale Generierung (kurz PMG), konvertiert zunächst das Nutzerverhalten (z. B. Klicks in Empfehlungssystemen oder Gespräche mit einem virtuellen Assistenten) in natürliche Sprache, um das Verständnis der LLMs zu erleichtern und Benutzerpräferenzbeschreibungen zu extrahieren. Solche Benutzerpräferenzen werden dann in einen Generator, wie ein multimodales LLM oder ein Diffusionsmodell, eingespeist, um personalisierte Inhalte zu erzeugen. Um Benutzerpräferenzen umfassend und genau zu erfassen, schlagen wir vor, dass das LLM eine Kombination aus expliziten Schlüsselwörtern und impliziten Einbettungen ausgibt, um Benutzerpräferenzen darzustellen. Dann werden die Kombination von Schlüsselwörtern und Einbettungen als Eingabeaufforderungen verwendet, um den Generator zu konditionieren. Wir optimieren eine gewichtete Summe aus Genauigkeit und Präferenzwerten, sodass der generierte Inhalt ein gutes Gleichgewicht zwischen beiden hat. Im Vergleich zu einer Basismethode ohne Personalisierung zeigt PMG eine signifikante Verbesserung der Personalisierung von bis zu 8% in Bezug auf LPIPS, während die Genauigkeit der Generierung beibehalten wird.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper