Key points are not available for this paper at this time.
Ein entscheidender Fortschritt bei der Entwicklung großer Sprachmodelle (LLMs) ist das Aufkommen der Mixture-of-Experts (MoE) LLMs. Im Vergleich zu herkömmlichen LLMs können MoE LLMs mit weniger Parametern eine höhere Leistung erzielen, doch ist ihre Bereitstellung aufgrund der enormen Anzahl an Parametern weiterhin schwierig. Anders als frühere Gewichtsausdünnungsverfahren, die speziell entworfene Hardware erforderten, zielt diese Arbeit hauptsächlich darauf ab, die Bereitstellungseffizienz von MoE LLMs durch einsteckbare sparsifizierende Techniken auf Expertenebene zu verbessern. Insbesondere schlagen wir erstmals nach unserem besten Wissen nachtrainierende Ansätze für aufgabenneutrales und aufgabenspezifisches Expertenausdünnen und -überspringen von MoE LLMs vor, die darauf ausgelegt sind, die Bereitstellungseffizienz zu erhöhen und gleichzeitig die Modellleistung über eine breite Palette von Aufgaben zu erhalten. Umfangreiche Experimente zeigen, dass unsere vorgeschlagenen Methoden zugleich Modellgrößen reduzieren und die Inferenzgeschwindigkeit erhöhen können, während zufriedenstellende Leistung beibehalten wird. Daten und Code werden verfügbar sein unter https://github.com/Lucky-Lance/ExpertSparsity.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xudong Lü
Qi Liu
Yuhui Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Lü et al. (Thu,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e781fab6db6435876f55bd — DOI: https://doi.org/10.48550/arxiv.2402.14800
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: