Key points are not available for this paper at this time.
Les connaissances grammaticales des modèles linguistiques (LM) sont souvent mesurées à l'aide d'un étalon de paires minimales linguistiques, où les LM sont présentés avec une paire de phrases acceptables et inacceptables et doivent juger laquelle est acceptable. Cependant, l'approche dominante existante calcule naïvement et compare les probabilités des phrases appariées en utilisant les LM. De plus, les grands modèles linguistiques (LLM) n'ont pas encore été examinés en profondeur dans ce domaine. Nous examinons donc comment tirer le meilleur parti des connaissances grammaticales des LLM pour les évaluer de manière exhaustive. Grâce à des expériences approfondies sur neuf méthodes de jugement en anglais et en chinois, nous démontrons qu'une méthode de lecture de probabilité, l'image LP en modèle, et une méthode basée sur des incitations, le calcul de probabilité Oui/Non, atteignent des performances particulièrement élevées, surpassant l'approche conventionnelle. Notre analyse révèle leurs forces différentes, par exemple, le calcul de probabilité Oui/Non est robuste contre le biais de longueur de jeton, suggérant qu'elles exploitent différents aspects des connaissances grammaticales des LLM. Par conséquent, nous recommandons d'utiliser des méthodes de jugement diverses pour évaluer les LLM de manière exhaustive.
Ide et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: