Key points are not available for this paper at this time.
A crescente complexidade dos sistemas de manufatura modernos exige abordagens avançadas de tomada de decisão para planejamento e controle de produção (PPC). O aprendizado por reforço (RL), como parte do aprendizado de máquina, ganhou atenção nos últimos anos devido à sua capacidade de aprender políticas ótimas para tomada de decisão por meio da interação de tentativa e erro com um ambiente dinâmico. Esta revisão sistemática da literatura sintetiza 196 publicações revisadas por pares de 2018 a 2024 sobre RL para PPC. Usando uma estrutura de RL estabelecida, analisamos famílias de algoritmos, mecanismos de decisão, objetivos de otimização, práticas de avaliação e maturidade industrial. Os resultados mostram uma forte concentração no controle operacional, especialmente no despacho, com crescente adoção de métodos de gradiente de política e formulações de múltiplos agentes. O design de recompensas continua dominado por objetivos baseados no tempo, como tempo total de produção e atrasos, enquanto custos, sustentabilidade e objetivos orientados ao risco são tratados principalmente como termos secundários. Identificamos uma lacuna estrutural persistente entre validação acadêmica e adoção industrial. A maioria dos estudos valida em simulações sintéticas, apenas um pequeno subconjunto utiliza dados industriais reais, e muito poucos conectam políticas treinadas a ambientes de teste físicos. Nenhum estudo de caso revisado relata controle autônomo de loop fechado sustentado em um sistema de produção em operação contínua. Consolidamos as lacunas de pesquisa relatadas em uma agenda acionável focada na fidelidade do ambiente, governança de transferência, avaliação padronizada e mecanismos de segurança e garantia que permitem a implantação industrial escalável.
Mayerhoff et al. (Qui,) estudaram essa questão.