Nachweislich effizientes Reinforcement Learning für gegnerische unruhige Mehrarmige Banditen mit unbekannten Übergängen und Banditen-Feedback | Synapse