Key points are not available for this paper at this time.
Nous introduisons LMCodec, un codec de parole neural causal qui fournit un audio de haute qualité à des débits binaires très faibles. La colonne vertébrale du système est un codec convolutionnel causal qui encode l'audio en une hiérarchie de tokens allant de grossier à fin en utilisant la quantification vectorielle par résidu. LMCodec entraîne un modèle de langage Transformer pour prédire les tokens fins à partir des graines de manière générative, permettant la transmission de moins de codes. Un second Transformer prédit l'incertitude des codes suivants étant donné les codes transmis précédemment, et est utilisé pour effectuer un codage d'entropie conditionnelle. Un test subjectif MUSHRA a été réalisé et montre que la qualité est comparable à celle des codecs de référence à des débits binaires plus élevés. Un audio d'exemple est disponible sur https://mjenrungrot.github.io/chrome-media-audio-papers/publications/lmcodec.
Jenrungrot et al. (Ven,) ont étudié cette question.
Synapse has enriched one closely related paper. Consider it for comparative context: