What question did this study set out to answer?

Diese Arbeit untersucht kritisch die Effektivität des Finetunings schwächerer Sprachmodelle mithilfe von Ausgaben stärkerer proprietärer Modelle.

May 25, 2023Open Access

Das falsche Versprechen der Imitation proprietärer LLMs

Key Points

Diese Arbeit untersucht kritisch die Effektivität des Finetunings schwächerer Sprachmodelle mithilfe von Ausgaben stärkerer proprietärer Modelle.
Finetunete mehrere Sprachmodelle, die ChatGPT imitieren, mit unterschiedlichen Größen (1,5B-13B) und Mengen an Imitationsdaten (0,3M-150M Tokens).
Bewertete Modelldaten mit Hilfe von Crowd-Ratern und Standard-NLP-Benchmarks zur Leistungsbewertung.
Durchgeführte gezielte automatische Bewertungen zur Analyse der Diskrepanzen in der Modellleistung.
Die Imitationsmodelle wurden von Crowd-Arbeitern wettbewerbsfähig bewertet, konnten jedoch nicht die Faktizität von ChatGPT in automatisierten Tests replizieren.
Die Leistungsdifferenz bleibt signifikant für Aufgaben außerhalb der Unterstützung durch die Imitationsdaten.
Schlussfolgerung: Imitationsmethoden sind unzureichend, um die Fähigkeitslücke zu überbrücken; die Verbesserung der Basis-Modelle ist entscheidend.

Abstract

Eine aufkommende Methode, um ein schwächeres Sprachmodell kostengünstig zu verbessern, besteht darin, es auf den Ausgaben eines stärkeren Modells, wie einem proprietären System wie ChatGPT (z. B. Alpaca, Self-Instruct und andere), zu feintunen. Dieser Ansatz zielt darauf ab, die Fähigkeiten des proprietären Modells mithilfe eines schwächeren Open-Source-Modells kostengünstig zu imitieren. In dieser Arbeit analysieren wir diesen Ansatz kritisch. Zunächst feintunen wir eine Reihe von LMs, die ChatGPT imitieren, und verwenden dabei unterschiedliche Grundmodellgrößen (1,5B–13B), Datenquellen und Mengen an Imitationsdaten (0,3M–150M Tokens). Anschließend bewerten wir die Modelle mithilfe von Crowd-Ratern und kanonischen NLP-Benchmarks. Zunächst waren wir von der Ausgabequalität unserer Imitationsmodelle überrascht – sie scheinen viel besser darin zu sein, Anweisungen zu befolgen, und die Crowd-Arbeiter bewerten ihre Ausgaben als wettbewerbsfähig mit ChatGPT. Bei gezielteren automatischen Bewertungen stellen wir jedoch fest, dass Imitationsmodelle praktisch keine Lücke zwischen dem Basis-LM und ChatGPT bei Aufgaben schließen, die in den Imitationsdaten nicht stark unterstützt werden. Wir zeigen, dass diese Leistungsunterschiede menschlichen Ratern entgehen können, da Imitationsmodelle zwar ChatGPTs Stil gut nachahmen, jedoch nicht dessen Faktizität. Insgesamt kommen wir zu dem Schluss, dass die Modellimitierung ein falsches Versprechen ist: Es besteht eine erhebliche Lücke in den Fähigkeiten zwischen offenen und geschlossenen LMs, die mit den aktuellen Methoden nur mithilfe einer unhandlichen Menge an Imitationsdaten oder durch die Verwendung leistungsfähigerer Basis-LMs überbrückt werden kann. Wir argumentieren daher, dass die wirkungsvollste Maßnahme zur Verbesserung von Open-Source-Modellen darin besteht, die schwierige Herausforderung anzugehen, bessere Basis-LMs zu entwickeln, anstatt den Abkürzungsweg der Imitation proprietärer Systeme zu wählen.

Bookmark

View Full Paper

Bookmark

View Full Paper

Das falsche Versprechen der Imitation proprietärer LLMs

Key Points

Abstract

Cite This Study