Key points are not available for this paper at this time.
Wir präsentieren ein Vision- und Sprachmodell namens MultiModal-GPT, um mehrstufige Dialoge mit Menschen zu führen. MultiModal-GPT kann verschiedenen Anweisungen von Menschen folgen, wie zum Beispiel das Erzeugen einer detaillierten Beschreibung, das Zählen der interessierten Objekte und das Beantworten allgemeiner Fragen von Nutzern. MultiModal-GPT wird parameter-effizient von OpenFlamingo feingetunt, wobei Low-rank Adapter (LoRA) sowohl im Teil der Kreuz-Attention als auch im Teil der Selbst-Attention des Sprachmodells hinzugefügt werden. Zuerst erstellen wir Anweisungsvorlagen mit Vision- und Sprachdaten für das Multi-Modality Instruction Tuning, um das Modell dazu zu bringen, menschliche Anweisungen zu verstehen und zu befolgen. Wir stellen fest, dass die Qualität der Trainingsdaten entscheidend für die Dialogleistung ist, wobei wenige Daten mit kurzen Antworten dazu führen können, dass das Modell kurz auf jegliche Anweisungen reagiert. Um die Fähigkeit von MultiModal-GPT, mit Menschen zu chatten, weiter zu verbessern, nutzen wir daten, die nur Sprachfolgen beinhalten, um MultiModal-GPT gemeinsam zu trainieren. Das gemeinsame Training von sprachlichen und visuellen Anweisungen mit derselben Anweisungsvorlage verbessert effektiv die Dialogleistung. Verschiedene Demos zeigen die Fähigkeit von MultiModal-GPT zu kontinuierlichem Dialog mit Menschen. Code, Dataset und Demo sind unter https://github.com/open-mmlab/Multimodal-GPT verfügbar.
Gong et al. (Mon,) haben diese Frage untersucht.