Em uma era onde agentes de IA aumentados por ferramentas estão se tornando cada vez mais vitais, nossas descobertas destacam a capacidade da Otimização de Política Relativa de Grupo (GRPO) de capacitar SLMs, que tradicionalmente são limitados no uso de ferramentas. A habilidade de usar ferramentas de forma eficaz se tornou uma característica definidora dos Modelos de Linguagem de Grande Escala (LLMs), permitindo que acessem dados externos e recursos internos. À medida que os agentes de IA se tornam mais sofisticados, as capacidades de uso de ferramentas se tornaram indispensáveis. Embora os LLMs tenham feito progressos significativos nessa área, os Modelos de Linguagem Pequena (SLMs) ainda enfrentam desafios na integração precisa do uso de ferramentas, especialmente em ambientes com recursos limitados. Este estudo investiga como o Aprendizado por Reforço, especificamente a Otimização de Política Relativa de Grupo (GRPO), pode aprimorar a precisão no uso de ferramentas dos SLMs. Ao projetar um sistema de recompensa bem definido que reforça a saída JSON estruturada, a seleção correta de ferramentas e o uso preciso de parâmetros, demonstramos que a GRPO permite que os SLMs alcancem melhorias significativas nas capacidades de uso de ferramentas (chamada de função/saída JSON). Nossa abordagem fornece um método de treinamento computacionalmente eficiente que aprimora a implantação prática de SLMs em aplicações reais de IA.
Paprunia et al. (Wed,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: