Los puntos clave no están disponibles para este artículo en este momento.
En este artículo se estudia el control cuadrático adaptativo distribuido de sistemas lineales grandes en tiempo discreto con dinámicas desconocidas utilizando aprendizaje por refuerzo distribuido. Primero se revisa el control cuadrático lineal basado en programación dinámica (específicamente iteración de políticas) y el control cuadrático adaptativo basado en aprendizaje por refuerzo (especialmente Q learning). Luego se aborda el control cuadrático adaptativo distribuido. Se proponen dos funciones Q que explotan la estructura cuadrática de la función de valor y que conducen a una política descentralizada y una distribuida, y se presentan un algoritmo de Q learning descentralizado y uno distribuido. Finalmente, los conceptos se evalúan en un estudio de simulación. Los resultados de la simulación indican que la política distribuida es casi óptima.
Daniel Görges (Martes,) estudió esta cuestión.