La dépression est une préoccupation croissante attirant l'attention à la fois dans le discours public et dans la recherche en IA. Bien que les réseaux neuronaux profonds (DNN) aient été utilisés pour sa reconnaissance, ils manquent encore d'efficacité dans le monde réel. Les modèles linguistiques de grande taille (LLM) montrent un fort potentiel mais nécessitent un ajustement spécifique au domaine et ont des difficultés avec des indices non textuels. Étant donné que la dépression s'exprime souvent par le ton de la voix et le comportement plutôt que par un texte explicite, s'appuyer uniquement sur la langue est insuffisant. La précision diagnostique souffre également sans incorporer l'expertise psychologique. Pour répondre à ces limitations, nous présentons, à notre connaissance, la première application des LLM à la détection multimodale de la dépression en utilisant le jeu de données DAIC-WOZ. Nous extrayons les caractéristiques audio en utilisant le modèle pré-entraîné Wav2Vec, et les cartographions à des LLM basés sur le texte pour un traitement ultérieur. Nous proposons également une nouvelle stratégie d'incorporation des connaissances psychologiques dans les LLM afin d'améliorer la performance diagnostique, en utilisant spécifiquement un ensemble de questions et réponses pour accorder des connaissances autorisées aux LLM. Notre approche entraîne une amélioration notable tant en erreur absolue moyenne (MAE) qu'en erreur quadratique moyenne (RMSE) par rapport à un score de base proposé par l'article original connexe. Les codes sont disponibles sur Github.
Li et al. (Ven,) ont étudié cette question.