Key points are not available for this paper at this time.
Le raisonnement séquentiel à la pointe de la technologie dans les Modèles de Langage de Grande Taille (LLMs) a étendu les capacités des Copilotes au-delà des tâches conversationnelles jusqu'à l'appel de fonctions complexes, gérant des milliers d'appels d'API. Cependant, la tendance de l'invite compositionnelle à segmenter les tâches en plusieurs étapes, chacune nécessitant un aller-retour aux API GPT, entraîne une latence accrue du système et des coûts plus élevés. Bien que les avancées récentes dans l'appel de fonctions parallèles aient amélioré l'exécution des outils par appel d'API, elles peuvent nécessiter des instructions plus détaillées en contexte et une décomposition des tâches au niveau de l'invite, entraînant des coûts d'ingénierie et de production plus élevés. Inspiré par les principes de conception matérielle des opérations de multiplication-addition (MAD), qui fusionnent plusieurs opérations arithmétiques en une seule tâche du point de vue du compilateur, nous proposons le Compilateur d'Outils LLM, qui fusionne sélectivement des types similaires d'opérations d'outils sous une seule fonction à l'exécution, les présentant comme une tâche unifiée au LLM. Cette fusion sélective améliore intrinsèquement la parallélisation et l'efficacité. Évalué sur une plateforme Copilot à grande échelle, le Compilateur d'Outils LLM réalise jusqu'à quatre fois plus d'appels parallèles que les méthodes existantes, réduisant les coûts en jetons et la latence jusqu'à 40 % et 12 %, respectivement.
Singh et al. (Mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: