Résumé L'objectif de la traduction expressive de la parole à la parole (S2ST) est de fournir des traductions précises tout en préservant les caractéristiques du locuteur source. Cependant, malgré les progrès récents, deux défis subsistent. Tout d'abord, la plupart des études publient uniquement une taille de modèle ; même lorsque plusieurs tailles sont fournies, elles sont souvent entraînées séparément, ce qui limite le déploiement flexible selon les budgets de calcul. Deuxièmement, préserver l'identité du locuteur nécessite généralement de fournir des informations acoustiques liées au locuteur comme entrée au modèle de traduction, soulevant ainsi des préoccupations en matière de confidentialité. Pour répondre à ces problèmes, nous proposons un cadre collaboratif S2ST cloud-edge qui équilibre qualité de traduction, efficacité et confidentialité. Plus spécifiquement, nous ajoutons des têtes de sortie anticipée (EE) à l'architecture afin que l'inférence puisse s'adapter aux contraintes de ressources. Pour améliorer davantage la qualité de traduction, nous introduisons un classificateur de difficulté guidé par un enseignant pour étiqueter les échantillons d'entraînement par difficulté. Nous utilisons ensuite les données étiquetées pour entraîner un modèle qui prédit la couche EE optimale. Lors de l'inférence, ce modèle transmet la couche EE optimale prédite au modèle de traduction. Enfin, pour réduire la surcharge de bande passante et protéger la confidentialité des utilisateurs, nous proposons un module de préservation de la voix basé sur la récupération. Nous extrayons des caractéristiques acoustiques et effectuons un appariement de similarité du côté de l'expéditeur, et reconstruisons les caractéristiques acoustiques du locuteur du côté du récepteur. Les expériences montrent que notre stratégie EE atteint systématiquement une meilleure qualité de traduction que d'autres méthodes. De plus, par rapport à la transmission directe de la parole source, notre méthode basée sur la récupération obtient de meilleurs résultats sur des indicateurs clés tout en améliorant l'efficacité de la communication et la confidentialité.
Zhu et al. (Jeu,) ont étudié cette question.