강력한 언어 모델 정렬을 향하여: 직접 선호 최적화를 위한 배분 강건화 | Synapse