Key points are not available for this paper at this time.
Skalierung hat neue Grenzen im Bereich der natürlichen Sprachverarbeitung eröffnet, aber zu hohen Kosten. In Reaktion darauf wurden Mixture-of-Experts (MoE) vorgeschlagen, die durch das Lernen, nur eine Teilmenge von Parametern während des Trainings und der Inferenz zu aktivieren, einen energieeffizienten Weg zu noch größeren und leistungsfähigeren Sprachmodellen darstellen. Dieser Shift hin zu einer neuen Generation von Fundamentmodellen gewinnt insbesondere im Bereich der automatischen Spracherkennung (ASR) an Dynamik. Neuere Arbeiten, die MoE in ASR-Modelle integrieren, weisen komplexe Designs auf, wie das Routieren von Frames über ein ergänzendes Einbettungsnetzwerk, die Verbesserung der mehrsprachigen Fähigkeit für die Experten und die Nutzung dedizierter Hilfskosten für entweder das Lastenbalancieren der Experten oder die spezifische Sprachbehandlung. Wir haben festgestellt, dass delikate Designs nicht notwendig sind, während ein peinlich einfacher Austausch von MoE-Schichten für alle Feed-Forward-Netzwerk (FFN)-Schichten für die ASR-Aufgabe kompetent ist. Genauer gesagt, wir benchmarken unser vorgeschlagenes Modell auf einem groß angelegten inneren Quell-Datensatz (160k Stunden); die Ergebnisse zeigen, dass wir unser Basis-Conformer-Modell (Dense-225M) zu seinen MoE-Pendants (MoE-1B) skalieren können und eine Wortfehlerquote (WER) auf dem Niveau von Dense-1B erreichen, während wir einen Real Time Factor (RTF) auf dem Niveau von Dense-225M beibehalten. Darüber hinaus erreichen wir durch die Anwendung des Unified 2-Pass-Frameworks mit bidirektionalen Aufmerksamkeitsdecodern (U2++) die Streaming- und Non-Streaming-Decodierungsmodi in einem einzigen MoE-basierten Modell, das wir U2++ MoE nennen. Wir hoffen, dass unsere Studie die Forschung zur Skalierung von Sprachfundamentmodellen ohne Verlust der Bereitstellungseffizienz erleichtern kann.
Song et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: