Key points are not available for this paper at this time.
Das End-to-End-ASR-Modell wird im Streaming-Multilingual-Szenario oft gewünscht, da es einfacher zu implementieren ist und von vortrainierten Sprachmodellen wie leistungsstarken Basis-Modellen profitieren kann. Gleichzeitig kann die heterogene Natur und das unausgewogene Datenangebot verschiedener Sprachen zu einer Leistungsminderung führen, was während des Trainings zu asynchronen Spitzenleistungen für verschiedene Sprachen führt, insbesondere bei Tail-Sprachen. Manchmal kann selbst die Datenverfügbarkeit aufgrund des erweiterten Datenschutzes eingeschränkt sein. Bestehende Arbeiten neigen dazu, die Modellgröße erheblich zu erhöhen oder sprachspezifische Decoder zu lernen, um jede Sprache separat zu behandeln. In dieser Studie untersuchen wir einfaches, aber effektives sprachabhängiges Adapter-Finetuning (LDA) unter einem kaskadierten Conformer-Transducer-Rahmen, der durch Lehr-Pseudolabeling für Tail-Sprachen im Streaming-Multilingual-ASR verbessert wird. Der Adapter macht nur 0,4 % des gesamten Modells pro Sprache aus. Er wird in das gefrorene Basis-Modell integriert und ist das einzige trainierbare Modul während des Finetuning-Prozesses mit noisy student training. Das endgültige Modell kombiniert die Adapter-Parameter aus verschiedenen Checkpoints für verschiedene Sprachen. Die Modellleistung wird an einem herausfordernden multilingualen Diktatsatz validiert, der 39 Tail-Sprachen aus Latein, Griechisch, Arabisch usw. umfasst. Unsere vorgeschlagene Methode bringt im Durchschnitt eine Reduzierung der Wortfehlerquote um 12,2 % und bis zu 37,5 % in einer einzelnen Locale. Darüber hinaus zeigen wir, dass unser parameter-effizientes LDA mit der Qualität des vollständigen Modell-Finetunings mithalten kann, wodurch das Problem der asynchronen Spitzenleistung erheblich gemildert wird.
Bai et al. (Mon,) haben diese Frage untersucht.