Key points are not available for this paper at this time.
Die jüngsten Fortschritte bei großen Vision-Language-Modellen (LVLMs), wie GPT4-V und LLaVA, sind erheblich. Insbesondere die modulare Architektur von LLaVA bietet eine Kombination aus Einfachheit und Effizienz. Jüngste Arbeiten konzentrieren sich hauptsächlich darauf, mehr Vorabtrainings- und Anweisungsanpassungsdaten einzuführen, um die Leistung des Modells zu verbessern. Dieses Papier befasst sich mit den oft vernachlässigten Aspekten der Dateneffizienz während des Vorabtrainings und dem Auswahlprozess für Anweisungsanpassungsdatensätze. Unsere Forschung zeigt, dass eine bloße Erhöhung der Größe der Vorabtrainingsdaten nicht zwangsläufig zu einer verbesserten Leistung führt und in der Tat zu deren Verschlechterung führen kann. Darüber hinaus haben wir eine Pipeline entwickelt, um den effizientesten Anweisungsanpassungsdatensatz (SFT) zu identifizieren, was impliziert, dass nicht alle in bestehenden Studien verwendeten SFT-Daten notwendig sind. Das Hauptziel dieses Papiers ist es nicht, ein hochmodernes Modell vorzustellen, sondern vielmehr als Fahrplan für zukünftige Forschungen zu dienen, mit dem Ziel, die Datennutzung während des Vorabtrainings und der Feinabstimmungsprozesse zu optimieren, um die Leistung von Vision-Language-Modellen zu verbessern.
Liu et al. (Mon,) haben diese Frage untersucht.