What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

Aprimorando a Capacidade de Uso de Ferramentas de SLM com Aprendizado por Reforço

Key Points

A GRPO melhora significativamente as capacidades de uso de ferramentas em SLMs, permitindo-lhes alcançar chamadas de função precisas.
Utilizando um sistema de recompensa bem definido, os SLMs exibem maior precisão no uso de ferramentas, particularmente em condições com recursos limitados.
Por meio de aprendizado por reforço, este estudo mostra que os SLMs podem integrar o uso de ferramentas de forma mais eficaz, reduzindo a diferença com os LLMs.
O método de treinamento computacionalmente eficiente melhora a implantação dos SLMs em aplicações práticas de IA.

Abstract

Em uma era onde agentes de IA aumentados por ferramentas estão se tornando cada vez mais vitais, nossas descobertas destacam a capacidade da Otimização de Política Relativa de Grupo (GRPO) de capacitar SLMs, que tradicionalmente são limitados no uso de ferramentas. A habilidade de usar ferramentas de forma eficaz se tornou uma característica definidora dos Modelos de Linguagem de Grande Escala (LLMs), permitindo que acessem dados externos e recursos internos. À medida que os agentes de IA se tornam mais sofisticados, as capacidades de uso de ferramentas se tornaram indispensáveis. Embora os LLMs tenham feito progressos significativos nessa área, os Modelos de Linguagem Pequena (SLMs) ainda enfrentam desafios na integração precisa do uso de ferramentas, especialmente em ambientes com recursos limitados. Este estudo investiga como o Aprendizado por Reforço, especificamente a Otimização de Política Relativa de Grupo (GRPO), pode aprimorar a precisão no uso de ferramentas dos SLMs. Ao projetar um sistema de recompensa bem definido que reforça a saída JSON estruturada, a seleção correta de ferramentas e o uso preciso de parâmetros, demonstramos que a GRPO permite que os SLMs alcancem melhorias significativas nas capacidades de uso de ferramentas (chamada de função/saída JSON). Nossa abordagem fornece um método de treinamento computacionalmente eficiente que aprimora a implantação prática de SLMs em aplicações reais de IA.

Aprimorando a Capacidade de Uso de Ferramentas de SLM com Aprendizado por Reforço

Key Points

Abstract

Cite This Study

Also Consider

Also Consider