Encontrando buenas políticas en Procesos de Decisión de Markov con recompensa promedio sin conocimiento previo | Synapse