Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben erhebliches Interesse an ihren generativen Fähigkeiten geweckt, was zur Entwicklung verschiedener kommerzieller Anwendungen geführt hat. Die hohen Kosten für die Nutzung der Modelle treiben Anwendungsentwickler dazu, den Wert der Generierung unter einem begrenzten Inferenzbudget zu maximieren. In diesem Papier wird eine Studie zur Optimierung von Inferenzhyperparametern wie der Anzahl der Antworten, Temperatur und maximalen Token vorgestellt, die die Nützlichkeit/Kosten der Textgenerierung erheblich beeinflussen. Wir entwerfen ein Framework namens EcoOptiGen, das eine wirtschaftliche Hyperparameteroptimierung und kostenbasierte Beschneidung nutzt. Experimente mit den GPT-3.5/GPT-4-Modellen zu einer Vielzahl von Aufgaben bestätigen seine Wirksamkeit. EcoOptiGen ist im `autogen'-Paket der FLAML-Bibliothek implementiert: https: //aka. ms/autogen.
Wang et al. (Wed,) haben diese Frage untersucht.