इनाम मॉडलिंग के बिना बड़े विज़न-भाषा मॉडल फीडबैक से नीति सीखना | Synapse