LMCodec : un codec de parole à faible débit binaire avec des modèles de transformateur causaux

Key Points

Key points are not available for this paper at this time.

Abstract

Nous introduisons LMCodec, un codec de parole neural causal qui fournit un audio de haute qualité à des débits binaires très faibles. La colonne vertébrale du système est un codec convolutionnel causal qui encode l'audio en une hiérarchie de tokens allant de grossier à fin en utilisant la quantification vectorielle par résidu. LMCodec entraîne un modèle de langage Transformer pour prédire les tokens fins à partir des graines de manière générative, permettant la transmission de moins de codes. Un second Transformer prédit l'incertitude des codes suivants étant donné les codes transmis précédemment, et est utilisé pour effectuer un codage d'entropie conditionnelle. Un test subjectif MUSHRA a été réalisé et montre que la qualité est comparable à celle des codecs de référence à des débits binaires plus élevés. Un audio d'exemple est disponible sur https://mjenrungrot.github.io/chrome-media-audio-papers/publications/lmcodec.

Demander à l'IA

Bookmark

Demander à l'IA

Bookmark

Cite This Study

Jenrungrot et al. (Ven,) ont étudié cette question.

synapsesocial.com/papers/6a0ef600218372ada647deae https://doi.org/https://doi.org/10.1109/icassp49357.2023.10095442

Also Consider

Synapse has enriched one closely related paper. Consider it for comparative context:

1CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)2019 · 369 citations

Also Consider

Synapse has enriched one closely related paper. Consider it for comparative context:

1CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)2019 · 369 citations