What type of study is this?

This is a Quantitative Study study.

October 18, 2025Open Access

Associations profondes, haute créativité : une métrique simple mais efficace pour évaluer les grands modèles linguistiques

Key Points

PACE démontre une forte corrélation avec les classements de rédaction créative, indiquant son efficacité dans l'évaluation.
Les GML performants obtiennent des scores comparables à la créativité humaine moyenne, suggérant un potentiel de parité dans la performance.
L'analyse comparative révèle que les humains professionnels surpassent constamment les GML, soulignant les limitations des modèles actuels.
Tant les GML que les humains montrent une diminution de la concrétude, les humains présentant une plus grande diversité dans les schémas associatifs.

Abstract

L'évaluation de la créativité des GML représente un domaine de recherche crucial, bien que des défis tels que la contamination des données et les évaluations humaines coûteuses entravent souvent les progrès. S'inspirant de l'évaluation de la créativité humaine, nous proposons PACE, demandant aux GML de générer des chaînes d'associations parallèles pour évaluer leur créativité. PACE minimise le risque de contamination des données et offre une évaluation simple et hautement efficace, comme en témoigne sa forte corrélation avec les classements de rédaction créative de Chatbot Arena (ρ de Spearman = 0,739, p < 0,001) à travers divers modèles propriétaires et open-source. Une analyse comparative de la créativité associative entre les GML et les humains révèle que, bien que les GML performants obtiennent des scores comparables à la performance humaine moyenne, les humains professionnels surpassent constamment les GML. De plus, une analyse linguistique révèle que les humains et les GML présentent tous deux une tendance à la diminution de la concrétude de leurs associations, les humains montrant une plus grande diversité de schémas associatifs.

Associations profondes, haute créativité : une métrique simple mais efficace pour évaluer les grands modèles linguistiques

Key Points

Abstract

Cite This Study