Los puntos clave no están disponibles para este artículo en este momento.
Este artículo explora la capacidad de Mamba, una arquitectura propuesta recientemente basada en modelos de espacio de estado (SSMs), como una alternativa competitiva a los modelos basados en Transformer. En el dominio del habla, modelos basados en Transformer bien diseñados, como el Conformer y el E-Branchformer, se han convertido en los estándares de facto. Evaluaciones exhaustivas han demostrado la efectividad de estos modelos basados en Transformer en una amplia gama de tareas de habla. En contraste, la evaluación de los SSMs se ha limitado a unas pocas tareas, como el reconocimiento automático de voz (ASR) y la síntesis de voz. En este artículo, comparamos Mamba con variantes de Transformer de última generación para diversas aplicaciones de habla, incluyendo ASR, conversión de texto a voz, comprensión del lenguaje hablado y resumen de voz. Las evaluaciones experimentales revelaron que Mamba logra un rendimiento comparable o mejor que los modelos basados en Transformer, y demostró su eficiencia en el procesamiento de habla de formato largo.
Miyazaki et al. (Mon,) estudiaron esta cuestión.