Este artículo estudia el problema del control óptimo de retroalimentación de salida en tiempo finito prescrito para sistemas de múltiples entradas y múltiples salidas perturbados (MIMO) mediante la técnica de aprendizaje por refuerzo actor-crítico. El principal desafío es el diseño robusto de un controlador óptimo activado por eventos bajo la no linealidad de zona muerta desconocida. Para mejorar la robustez de los sistemas deterministas, se sintetiza un estimador de perturbaciones para compensar el efecto de las perturbaciones externas. Sobre esta base, dado que el esquema óptimo robusto sugerido requiere no solo el entrenamiento de las leyes de aprendizaje actor-crítico sino también la ley adaptativa de la estimación de perturbaciones, tanto el diseño de algoritmos de control como la deducción de las leyes de aprendizaje potencialmente aumentan la complejidad del proceso de control. Además, este trabajo arroja luz sobre la solución para restringir el error de seguimiento a una zona factible estrecha, incluyendo la sobreexcursión y el tiempo de convergencia, recurriendo a límites paralelos asimétricos. Luego, se desarrolla un paradigma robusto de backstepping óptimo de tiempo finito prescrito, donde el problema de explosión computacional se evita con la ayuda de un filtro integral de modo deslizante de segundo orden. Notablemente, se formula un protocolo activado por eventos conmutante que integra una ley de actualización de parámetros para ejecutar la compensación en línea de la zona muerta de entrada y minimizar el desperdicio innecesario de recursos. Técnicamente, el controlador puede asegurar que las señales internas de los sistemas de lazo cerrado (CLSs) se mantengan acotadas, y el error de seguimiento puede ser confinado a una configuración de estado transitorio esperada antes de un tiempo finito. Finalmente, dos experimentos ilustrativos ejemplifican la eficacia y superioridad de la táctica de control sugerida. • SETM se construye para equilibrar el uso de recursos y el comportamiento del control. • La función de tiempo finito prescrito puede restringir las sobreexcursiones del error de seguimiento transitorio. • La estimación de perturbaciones se incorpora en el aprendizaje actor-crítico para aumentar la robustez.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peng Sun
Henan University of Science and Technology
Xiaona Song
Henan University of Science and Technology
Shuai Song
Henan University of Science and Technology
Chaos Solitons & Fractals
Henan University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Tue,) estudiaron esta cuestión.
synapsesocial.com/papers/69d894ad6c1944d70ce05940 — DOI: https://doi.org/10.1016/j.chaos.2026.118299
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: