What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

MedAgentGym: Um Ambiente de Treinamento Escalável e Agente para Raciocínio Centrado em Código na Ciência de Dados Biomédica

Key Points

O MedAgentGym aumenta o desempenho em tarefas de ciência de dados biomédicos ao aprimorar as habilidades de raciocínio baseadas em código.
As tarefas dentro do ambiente cobrem 12 cenários do mundo real, levando a um melhor benchmarking de 29 LLMs.
Aproveitando o aprendizado de reforço, o Med-Copilot apresenta ganhos de desempenho marcantes de 43,02% e 45,28% em diferentes modos de treinamento.
O ambiente proporciona uma alternativa econômica e que preserva a privacidade em relação aos LLMs proprietários, integrando recursos de treinamento abrangentes.

Abstract

Apresentamos o MedAgentGym, um ambiente de treinamento escalável e interativo projetado para aprimorar as capacidades de raciocínio biomédico baseadas em código em agentes de grandes modelos de linguagem (LLMs). O MedAgentGym compreende 72.413 instâncias de tarefas em 129 categorias derivadas de 12 cenários biomédicos autênticos do mundo real. As tarefas estão encapsuladas dentro de ambientes de sandbox executáveis, cada um com especificações detalhadas das tarefas, mecanismos de feedback interativos, anotações de verdade verificáveis e geração escalável de trajetórias de treinamento. Um extenso benchmarking de 29 LLMs revela disparidades substanciais de desempenho na ciência de dados biomédica entre LLMs comerciais e de código aberto. Aproveitando a amostragem de trajetória eficiente em múltiplas threads e múltiplas interações no MedAgentGym, o Med-Copilot alcança ganhos de desempenho de +43,02% e +45,28% por meio de aprendizado de reforço offline e online, respectivamente, demonstrando o MedAgentGym como um campo de treinamento eficaz, enquanto se estabelece como uma alternativa competitiva e econômica, que preserva a privacidade, em relação aos LLMs proprietários (gpt-4o). Ao oferecer um ambiente de execução unificado com um benchmark abrangente e recursos de treinamento acessíveis e extensíveis, o MedAgentGym fornece uma plataforma integrada para desenvolver assistentes de codificação baseados em LLM para ciência de dados biomédicos avançados.

MedAgentGym: Um Ambiente de Treinamento Escalável e Agente para Raciocínio Centrado em Código na Ciência de Dados Biomédica

Key Points

Abstract

Cite This Study

Also Consider

Also Consider