November 4, 2014

Sur la localité des logiciels

Key Points

Key points are not available for this paper at this time.

Abstract

Le modèle de langage n-gram, qui trouve ses racines dans le traitement statistique du langage naturel, a montré qu'il réussit à capturer les régularités répétitives et prévisibles (« naturalness ») du code source, et à aider dans des tâches telles que la suggestion de code, le portage et la conception d'appareils d'assistance à la programmation. Cependant, nous montrons dans cet article que ce modèle basé sur le langage naturel ne réussit pas à exploiter une propriété particulière du code source : la localité. Nous constatons que les programmes écrits par des humains sont localisés : ils ont des régularités locales utiles qui peuvent être capturées et exploitées. Nous introduisons un nouveau modèle de langage de cache qui se compose à la fois d'un n-gram et d'un composant « cache » ajouté pour exploiter la localité. Nous montrons empiriquement que le composant de cache additionnel améliore considérablement l'approche n-gram en capturant la localité des logiciels, mesurée à la fois par l'entropie croisée et la précision des suggestions. La précision des suggestions de notre modèle est en fait comparable à celle d'un modèle de langage à la pointe de la technologie, augmenté sémantiquement ; mais il est plus simple et plus facile à mettre en œuvre. Notre modèle de langage de cache nécessite rien de plus que de la lexicalisation, et est donc applicable à tous les langages de programmation.

Bookmark

Sur la localité des logiciels

Key Points

Abstract

Cite This Study

Also Consider

Also Consider