February 29, 2024Open Access

Aproveitando modelos de linguagem pré-treinados para geração de código

Key Points

Key points are not available for this paper at this time.

Abstract

Resumo A assistência de código refere-se à utilização de várias ferramentas, técnicas e modelos para ajudar os desenvolvedores no processo de desenvolvimento de software. À medida que as tarefas de codificação se tornam progressivamente mais complexas, o assistente de código desempenha um papel fundamental no aumento da produtividade do desenvolvedor, na redução de erros e na facilitação de um fluxo de trabalho de codificação mais eficiente. Essa assistência pode se manifestar de várias formas, incluindo autocompletar código, detecção e correção de erros, geração de código, suporte à documentação e sugestões contextualizadas. Modelos de linguagem surgiram como componentes integrais da assistência de código, oferecendo aos desenvolvedores a capacidade de receber sugestões inteligentes, gerar trechos de código e melhorar a proficiência geral em codificação. Neste artigo, propomos novos modelos híbridos para geração de código ao aproveitar modelos de linguagem pré-treinados BERT, RoBERTa, ELECTRA e LUKE com o Modelo de Linguagem Causal Marian. Selecionamos esses modelos com base em seu forte desempenho em várias tarefas de processamento de linguagem natural. Avaliamos o desempenho desses modelos em dois conjuntos de dados CoNaLa e DJANGO e os comparamos com modelos de ponta existentes. Nosso objetivo é investigar o potencial de modelos de linguagem transformadores pré-treinados para revolucionar a geração de código, oferecendo precisão e eficiência aprimoradas na navegação por cenários complexos de codificação. Além disso, realizamos análise de erros e refinamento do código gerado. Nossos resultados mostram que esses modelos, quando combinados com o Decodificador Marian, melhoram significativamente a precisão e a eficiência da geração de código. Notavelmente, o modelo RoBERTaMarian alcançou uma pontuação BLEU máxima de 35.74 e uma precisão de correspondência exata de 13.8% no CoNaLa, enquanto o LUKE-Marian obteve uma pontuação BLEU de 89.34 e uma precisão de correspondência exata de 78.50% no DJANGO. A implementação deste trabalho está disponível em https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation.

Aproveitando modelos de linguagem pré-treinados para geração de código

Key Points

Abstract

Cite This Study

Also Consider

Also Consider