March 3, 2026Open Access

Aprendizado por Reforço Induzido por Agrupamento Fuzzy com Reaquecimento Determinístico

Key Points

O modelo proposto alcança um Q-learning mais eficiente ao alavancar técnicas de agrupamento fuzzy com múltiplos agentes.
O método Fuzzy c-Means é utilizado para calcular as membresias, melhorando as atualizações dos valores Q para aprendizado paralelo em ambientes distintos.
Ao incorporar recozimento determinístico, o modelo aumenta a robustez e maximiza os ganhos dos agentes durante o aprendizado.
Essa abordagem pode permitir melhor adaptabilidade dos agentes a complexidades ambientais variadas, otimizando os resultados do aprendizado por reforço.

Abstract

Uma abordagem de aprendizado cooperativo com múltiplos agentes atualizando simultaneamente a tabela Q é proposta como um método eficiente de aprendizado de reforço (Q-learning). Este estudo propõe um modelo de aprendizado por reforço com mudança, analisando simultaneamente o agrupamento de agentes e o Q-learning por cluster, na situação em que cada agente não sabe qual ambiente está resolvendo um problema, enquanto resolve problemas em diferentes ambientes. A lucratividade adquirida com base em políticas por cluster é calculada como uma membresia fuzzy, seguindo o método Fuzzy c-Means (FCM), permitindo a atualização dos valores Q com pesos de membresia e aprendendo paralelamente a tabela Q em cada ambiente. Além disso, a introdução de recozimento determinístico para a fuzzyidade da partição permite a realização conjunta de estimativa de modelo robusta e maximização dos ganhos adquiridos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Katsuhiro Honda

Taimu Yaotome

Seiki Ubukata

Journals

Journal of Japan Society for Fuzzy Theory and Intelligent Informatics

Actions

Institutions

Osaka Metropolitan University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizado por Reforço Induzido por Agrupamento Fuzzy com Reaquecimento Determinístico

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider