Key points are not available for this paper at this time.
Die Anpassung großer Sprachmodelle (LLMs) an neue Sprachen umfasst typischerweise kontinuierliches Pre-Training (CT), gefolgt von überwachten Feinabstimmungen (SFT). Allerdings hat der CT-dann-SFT-Ansatz Schwierigkeiten mit begrenzten Daten im Kontext ressourcenarmer Sprachen und kann die Fähigkeiten zum Sprachmodelling und zur Aufgabenlösung nicht gut ausbalancieren. Daher schlagen wir den Modellzusammenschluss als Alternative für ressourcenarme Sprachen vor, indem wir Modelle mit unterschiedlichen Fähigkeiten zu einem einzigen Modell ohne zusätzliches Training kombinieren. Wir verwenden den Modellzusammenschluss, um Aufgabenlösungs-LLMs für ressourcenarme Sprachen ohne SFT-Daten in den Zielsprachen zu entwickeln. Unsere Experimente basierend auf Llama-2-7B zeigen, dass der Modellzusammenschluss ressourcenarmen LLMs effektiv Aufgabenlösungsfähigkeiten verleiht und in Szenarien mit extrem knappen Daten beim CT-dann-SFT übertrifft. Da wir eine Leistungssättigung im Modellzusammenschluss mit mehr Trainingstokens beobachten, analysieren wir den Zusammenschlussprozess weiter und führen eine Slack-Variable in den Modellzusammenschlussalgorithmus ein, um den Verlust wichtiger Parameter zu verringern und damit die Leistung zu verbessern. Wir hoffen, dass der Modellzusammenschluss weiteren menschlichen Sprachen, die unter Datenknappheit leiden, mit seiner höheren Dateneffizienz zugutekommen kann.
Tao et al. (Thu,) untersuchten diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: