Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, indem sie bei einer Vielzahl von Aufgaben herausragende Ergebnisse erzielt haben. Die rechnerischen Anforderungen der LLM-Inferenz, einschließlich hoher Speichernutzung und langsamer Verarbeitungsgeschwindigkeiten, stellen jedoch erhebliche Herausforderungen für Anwendungen in der realen Welt dar, insbesondere auf ressourcenbeschränkten Geräten. Effiziente Inferenz ist entscheidend, um die Bereitstellung von LLMs auf eine breitere Palette von Plattformen, einschließlich mobiler und Edge-Geräte, auszuweiten. Diese Übersichtsarbeit untersucht zeitgenössische Techniken der Modellkompression, die diese Herausforderungen angehen, indem sie die Größe und die rechnerischen Anforderungen von LLMs reduzieren und dabei deren Leistung erhalten. Wir konzentrieren uns auf modellbasierte Kompressionsmethoden wie Quantisierung, Wissensdistillation und Pruning sowie auf systemseitige Optimierungen wie das KV-Cache-effiziente Design. Jede dieser Methodologien bietet einen einzigartigen Ansatz zur Optimierung von LLMs, von der Verringerung der numerischen Präzision über die Wissensübertragung zwischen Modellen bis hin zur strukturellen Vereinfachung neuronaler Netze. Darüber hinaus diskutieren wir aufkommende Trends im systemseitigen Design, die die Effizienz der LLM-Inferenz weiter steigern. Diese Übersichtsarbeit zielt darauf ab, einen umfassenden Überblick über aktuelle Fortschritte in der Modellkompression zu geben und deren Potenzial aufzuzeigen, LLMs zugänglicher und praxisgerechter für verschiedene Anwendungen zu machen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dong Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Dong Liu (Di,) hat diese Frage untersucht.
www.synapsesocial.com/papers/68e597e6b6db643587532e6d — DOI: https://doi.org/10.48550/arxiv.2409.01990