Key points are not available for this paper at this time.
Instructions au modèle pour générer une séquence d'étapes intermédiaires, également connue sous le nom de chaîne de pensée (CoT), est une méthode très efficace pour améliorer la précision des modèles de langage de grande taille (LLMs) sur les tâches d'arithmétique et de raisonnement symbolique. Cependant, le mécanisme derrière CoT reste flou. Ce travail fournit une compréhension théorique du pouvoir de CoT pour les transformateurs uniquement décodeurs à travers le prisme de l'expressivité. Conceptuellement, CoT confère au modèle la capacité d'effectuer des calculs fondamentalement sériels, ce qui fait défaut aux transformateurs, surtout lorsque la profondeur est faible. Étant donné une longueur d'entrée n, des travaux antérieurs ont montré que les transformateurs à profondeur constante avec une taille d'embedding de poly (n) à précision finie ne peuvent résoudre que des problèmes dans TC⁰ sans CoT. Nous montrons d'abord une limite supérieure d'expressivité encore plus stricte pour les transformateurs à profondeur constante avec une précision constante en bits, qui ne peuvent résoudre que des problèmes dans AC⁰, un sous-ensemble propre de TC⁰. Cependant, avec T étapes de CoT, les transformateurs à profondeur constante utilisant une précision constante en bits et une taille d'embedding O (n) peuvent résoudre tout problème soluble par des circuits booléens de taille T. Empiriquement, activer CoT améliore considérablement la précision pour les tâches difficiles pour le calcul parallèle, y compris la composition de groupes de permutations, le carrage itéré et les problèmes de valeur de circuit, en particulier pour les transformateurs à faible profondeur.
Li et al. (Tue,) ont étudié cette question.