Amélioration de PPO avec des politiques hybrides sensibles à la trajectoire. | Synapse