L'optimisation de la charge est un défi clé pour la mise en œuvre des batteries quantiques, en particulier en cas d'inhomogénéité et d'observabilité partielle. Cet article utilise l'apprentissage par renforcement pour optimiser les politiques de charge par morceaux constantes pour une batterie Dicke inhomogène. Nous comparons systématiquement les politiques à travers quatre régimes d'observabilité, de l'accès à l'état complet aux observables accessibles expérimentalement (énergies de systèmes à deux niveaux (TLS), moyennes d'ordre un, et corrélations d'ordre deux). Les résultats de simulation montrent que l'observabilité complète offre une ergotropie presque optimale avec une faible variabilité, tandis qu'en cas d'observabilité partielle, l'accès uniquement aux énergies de TLS uniques ou aux énergies plus moyennes d'ordre un est moins performant que la référence complètement observée. Cependant, l'augmentation des observations partielles avec des corrélations d'ordre deux récupère la majeure partie de l'écart, atteignant 94 % à 98 % de la référence à état complet. Les horaires appris ne sont pas myopiques, échangeant des plateaux temporaires ou des déclins pour de meilleurs résultats finaux. Ces découvertes mettent en évidence une voie pratique vers des protocoles de charge rapide efficaces sous des contraintes d'information réalistes.
Song et al. (Sun,) ont étudié cette question.