Apresentamos o MedAgentGym, um ambiente de treinamento escalável e interativo projetado para aprimorar as capacidades de raciocínio biomédico baseadas em código em agentes de grandes modelos de linguagem (LLMs). O MedAgentGym compreende 72.413 instâncias de tarefas em 129 categorias derivadas de 12 cenários biomédicos autênticos do mundo real. As tarefas estão encapsuladas dentro de ambientes de sandbox executáveis, cada um com especificações detalhadas das tarefas, mecanismos de feedback interativos, anotações de verdade verificáveis e geração escalável de trajetórias de treinamento. Um extenso benchmarking de 29 LLMs revela disparidades substanciais de desempenho na ciência de dados biomédica entre LLMs comerciais e de código aberto. Aproveitando a amostragem de trajetória eficiente em múltiplas threads e múltiplas interações no MedAgentGym, o Med-Copilot alcança ganhos de desempenho de +43,02% e +45,28% por meio de aprendizado de reforço offline e online, respectivamente, demonstrando o MedAgentGym como um campo de treinamento eficaz, enquanto se estabelece como uma alternativa competitiva e econômica, que preserva a privacidade, em relação aos LLMs proprietários (gpt-4o). Ao oferecer um ambiente de execução unificado com um benchmark abrangente e recursos de treinamento acessíveis e extensíveis, o MedAgentGym fornece uma plataforma integrada para desenvolver assistentes de codificação baseados em LLM para ciência de dados biomédicos avançados.
Xu et al. (Quarta-feira,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: