Key points are not available for this paper at this time.
La psychologie intuitive est un pilier du raisonnement de bon sens. La réplication de ce raisonnement dans l'intelligence artificielle est une étape importante vers une intelligence artificielle semblable à celle des humains. Plusieurs tâches récentes et références pour examiner ce raisonnement dans les grands modèles de langage se sont concentrées en particulier sur l'attribution de croyances dans les tâches de théorie de l'esprit. Ces tâches ont montré à la fois des succès et des échecs. Nous considérons en particulier un cas de succès présumé récent et montrons que de petites variations qui maintiennent les principes de la théorie de l'esprit retournent les résultats. Nous soutenons qu'en général, l'hypothèse nulle pour l'évaluation des modèles en psychologie intuitive devrait être sceptique et que les cas d'échecs atypiques devraient l'emporter sur les taux de réussite moyens. Nous considérons également ce que pourraient signifier de futurs succès sur les tâches de théorie de l'esprit par des LLMs plus puissants pour les tâches de théorie de l'esprit avec des personnes.
Tomer Ullman (Jeu,) a étudié cette question.