인간 피드백으로부터의 강화 학습을 통한 유용하고 무해한 조수 훈련 | Synapse