Verwendung von gewichteten Mischpolitik-Vorwissen zur Erreichung individueller optimaler Politiken in nichtstationären Umgebungen | Synapse