Key points are not available for this paper at this time.
Le décodage du langage à partir des dynamiques cérébrales est une direction ouverte importante dans le domaine des interfaces cerveau-ordinateur (BCI), surtout compte tenu de la croissance rapide des grands modèles de langage. Comparés aux signaux invasifs qui nécessitent une chirurgie d'implantation d'électrodes, les signaux neuraux non invasifs (par ex. EEG, MEG) ont suscité une attention croissante en raison de leur sécurité et de leur généralité. Cependant, l'exploration n'est pas adéquate sur trois aspects : 1) les méthodes précédentes se concentrent principalement sur l'EEG mais aucun des travaux antérieurs ne traite ce problème sur MEG avec une meilleure qualité de signal ; 2) les travaux antérieurs ont principalement utilisé le "teacher-forcing" lors du décodage génératif, ce qui est peu pratique ; 3) les travaux précédents sont majoritairement "basés sur BART" et pas complètement auto-régressifs, ce qui fonctionne mieux dans d'autres tâches de séquence. Dans cet article, nous explorons la traduction cerveau-texte des signaux MEG dans une formation de décodage de la parole. Ici, nous sommes les premiers à étudier un modèle "whisper" basé sur l'attention croisée pour générer du texte directement à partir des signaux MEG sans teacher forcing. Notre modèle atteint des scores BLEU-1 impressionnants de 60.30 et 52.89 sans pré-entraînement et teacher-forcing sur deux ensembles de données majeurs (GWilliams et Schoffelen). Cet article effectue une revue complète pour comprendre comment la formation de décodage de la parole performe sur les tâches de décodage neural, y compris l'initialisation du pré-entraînement, la séparation des ensembles d'entraînement et d'évaluation, l'augmentation et la loi d'échelle.
Yang et al. (Mon,) ont étudié cette question.