June 24, 2024Open Access

Explorando la Capacidad de Mamba en Aplicaciones de Voz

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo explora la capacidad de Mamba, una arquitectura propuesta recientemente basada en modelos de espacio de estado (SSMs), como una alternativa competitiva a los modelos basados en Transformer. En el dominio del habla, modelos basados en Transformer bien diseñados, como el Conformer y el E-Branchformer, se han convertido en los estándares de facto. Evaluaciones exhaustivas han demostrado la efectividad de estos modelos basados en Transformer en una amplia gama de tareas de habla. En contraste, la evaluación de los SSMs se ha limitado a unas pocas tareas, como el reconocimiento automático de voz (ASR) y la síntesis de voz. En este artículo, comparamos Mamba con variantes de Transformer de última generación para diversas aplicaciones de habla, incluyendo ASR, conversión de texto a voz, comprensión del lenguaje hablado y resumen de voz. Las evaluaciones experimentales revelaron que Mamba logra un rendimiento comparable o mejor que los modelos basados en Transformer, y demostró su eficiencia en el procesamiento de habla de formato largo.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo