May 23, 2024Open Access

Ungewählte Experten können ebenfalls beitragen: Die Kraft von MoE-Modellen durch Selbstkontrast entfesseln

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts (MoE) hat sich als eine herausragende Architektur zur Skalierung der Modellgröße bei gleichzeitiger Aufrechterhaltung der rechnerischen Effizienz etabliert. In MoE aktiviert jedes Token in der Eingabesequenz eine andere Teilmenge von Experten, die durch einen Routenmechanismus bestimmt wird. Allerdings tragen die nicht gewählten Experten in MoE-Modellen nicht zum Output bei, was möglicherweise zu einer Unterauslastung der Kapazität des Modells führt. In dieser Arbeit führen wir zunächst explorative Studien durch, um zu demonstrieren, dass eine Erhöhung der Anzahl aktivierter Experten nicht unbedingt zu einer Verbesserung führt und die Qualität des Outputs sogar verschlechtern kann. Anschließend zeigen wir, dass die Output-Verteilungen eines MoE-Modells unter Verwendung verschiedener Routenstrategien erheblich voneinander abweichen, was darauf hinweist, dass verschiedene Experten nicht immer synergistisch wirken. Motiviert durch diese Erkenntnisse schlagen wir Self-Contrast Mixture-of-Experts (SCMoE) vor, eine trainingsfreie Strategie, die nicht gewählte Experten während der Inferenz in einem Selbstkontrastmodus nutzt. Bei SCMoE werden die nächsten Token-Wahrscheinlichkeiten durch den Gegensatz der Outputs starker und schwacher Aktivierung unter Verwendung desselben MoE-Modells bestimmt. Unsere Methode ist konzeptionell einfach und rechnerisch leichtgewichtig, da sie im Vergleich zu gierigen Dekodierungsansätzen minimale Latenz verursacht. Experimente zu mehreren Benchmarks (GSM8K, StrategyQA, MBPP und HumanEval) zeigen, dass SCMoE die Schlussfolgerungsfähigkeit von Mixtral 8x7B konsistent in verschiedenen Domänen verbessern kann. Beispielsweise verbessert es die Genauigkeit bei GSM8K von 61.79 auf 66.94. Darüber hinaus führt die Kombination von SCMoE mit Selbstkonsistenz zu zusätzlichen Gewinnen, wobei die Genauigkeit von major@20 von 75.59 auf 78.31 steigt.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper