Aprendizado por Reforço sem Feedback Humano para Ajustes Finais de Modelos de Linguagem em Grande Escala | Synapse