Uma abordagem de aprendizado cooperativo com múltiplos agentes atualizando simultaneamente a tabela Q é proposta como um método eficiente de aprendizado de reforço (Q-learning). Este estudo propõe um modelo de aprendizado por reforço com mudança, analisando simultaneamente o agrupamento de agentes e o Q-learning por cluster, na situação em que cada agente não sabe qual ambiente está resolvendo um problema, enquanto resolve problemas em diferentes ambientes. A lucratividade adquirida com base em políticas por cluster é calculada como uma membresia fuzzy, seguindo o método Fuzzy c-Means (FCM), permitindo a atualização dos valores Q com pesos de membresia e aprendendo paralelamente a tabela Q em cada ambiente. Além disso, a introdução de recozimento determinístico para a fuzzyidade da partição permite a realização conjunta de estimativa de modelo robusta e maximização dos ganhos adquiridos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Katsuhiro Honda
Taimu Yaotome
Seiki Ubukata
Journal of Japan Society for Fuzzy Theory and Intelligent Informatics
Osaka Metropolitan University
Building similarity graph...
Analyzing shared references across papers
Loading...
Honda et al. (Sat,) estudaram esta questão.
synapsesocial.com/papers/69a76115c6e9836116a2ea76 — DOI: https://doi.org/10.3156/jsoft.38.1_599
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: