Key points are not available for this paper at this time.
Die Genauigkeit von End-to-End (E2E) automatischen Spracherkennungs (ASR) Modellen verbessert sich weiterhin, während sie auf größere Größen skaliert werden, wobei einige jetzt Milliarden von Parametern erreichen. Die weitverbreitete Bereitstellung und Anwendung dieser Modelle erfordert jedoch recheneffiziente Strategien für das Decodieren. In der vorliegenden Arbeit untersuchen wir eine solche Strategie: die Anwendung mehrerer Ebenen zur Reduzierung der Bildrate im Encoder, um die Encoder-Ausgaben in eine kleine Anzahl von Ausgabebildern zu komprimieren. Während ähnliche Techniken in früheren Arbeiten untersucht wurden, erreichen wir eine dramatisch stärkere Reduzierung als zuvor demonstriert, durch den Einsatz mehrerer Trichterreduktionsschichten. Durch Ablationsstudien untersuchen wir die Auswirkungen verschiedener architektonischer Entscheidungen im Encoder, um die effektivsten Strategien zu identifizieren. Wir zeigen, dass wir für alle 2,56 Sekunden Sprachein input ein Encoder-Ausgabebild erzeugen können, ohne die Wortfehlerrate bei einer groß angelegten Sprachsuchaufgabe erheblich zu beeinträchtigen, während wir die Latenzen von Encoder und Decoder um 48 % bzw. 92 % im Vergleich zu einer starken, aber rechnerisch teuren Basislinie verbessern.
Prabhavalkar et al. (Mo,) haben diese Frage untersucht.