What question did this study set out to answer?

El objetivo es desarrollar un método de control robusto para sistemas MIMO utilizando optimización en tiempo finito y aprendizaje por refuerzo para gestionar perturbaciones de manera efectiva.

April 10, 2026Open Access

Control óptimo de tiempo finito prescrito activado por eventos para sistemas MIMO perturbados con entrada de zona muerta mediante aprendizaje por refuerzo actor-crítico

Leer artículo completoexternamente

Puntos clave

El objetivo es desarrollar un método de control robusto para sistemas MIMO utilizando optimización en tiempo finito y aprendizaje por refuerzo para gestionar perturbaciones de manera efectiva.
Utilizó aprendizaje por refuerzo actor-crítico para el diseño del controlador.
Sintetizó un estimador de perturbaciones para contrarrestar influencias externas.
Implementó un protocolo de control activado por eventos para minimizar el desperdicio de recursos.
Desarrolló una técnica de backstepping con un filtro integral de modo deslizante.
Confinó exitosamente el error de seguimiento dentro de un rango estrecho antes de un tiempo finito.
Demostró robustez mediante experimentos, equilibrando el uso de recursos y la eficacia del control.
Mostró reducción de sobreexcursión y tiempo de convergencia en la respuesta del control.

Resumen

Este artículo estudia el problema del control óptimo de retroalimentación de salida en tiempo finito prescrito para sistemas de múltiples entradas y múltiples salidas perturbados (MIMO) mediante la técnica de aprendizaje por refuerzo actor-crítico. El principal desafío es el diseño robusto de un controlador óptimo activado por eventos bajo la no linealidad de zona muerta desconocida. Para mejorar la robustez de los sistemas deterministas, se sintetiza un estimador de perturbaciones para compensar el efecto de las perturbaciones externas. Sobre esta base, dado que el esquema óptimo robusto sugerido requiere no solo el entrenamiento de las leyes de aprendizaje actor-crítico sino también la ley adaptativa de la estimación de perturbaciones, tanto el diseño de algoritmos de control como la deducción de las leyes de aprendizaje potencialmente aumentan la complejidad del proceso de control. Además, este trabajo arroja luz sobre la solución para restringir el error de seguimiento a una zona factible estrecha, incluyendo la sobreexcursión y el tiempo de convergencia, recurriendo a límites paralelos asimétricos. Luego, se desarrolla un paradigma robusto de backstepping óptimo de tiempo finito prescrito, donde el problema de explosión computacional se evita con la ayuda de un filtro integral de modo deslizante de segundo orden. Notablemente, se formula un protocolo activado por eventos conmutante que integra una ley de actualización de parámetros para ejecutar la compensación en línea de la zona muerta de entrada y minimizar el desperdicio innecesario de recursos. Técnicamente, el controlador puede asegurar que las señales internas de los sistemas de lazo cerrado (CLSs) se mantengan acotadas, y el error de seguimiento puede ser confinado a una configuración de estado transitorio esperada antes de un tiempo finito. Finalmente, dos experimentos ilustrativos ejemplifican la eficacia y superioridad de la táctica de control sugerida. • SETM se construye para equilibrar el uso de recursos y el comportamiento del control. • La función de tiempo finito prescrito puede restringir las sobreexcursiones del error de seguimiento transitorio. • La estimación de perturbaciones se incorpora en el aprendizaje actor-crítico para aumentar la robustez.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Peng Sun

Henan University of Science and Technology

Xiaona Song

Henan University of Science and Technology

Shuai Song

Henan University of Science and Technology

Journals

Chaos Solitons & Fractals

Actions

Institutions

Henan University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Control óptimo de tiempo finito prescrito activado por eventos para sistemas MIMO perturbados con entrada de zona muerta mediante aprendizaje por refuerzo actor-crítico

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider