Key points are not available for this paper at this time.
Diese Arbeit konzentriert sich auf die Aufgabe der abfragebasierten Zusammenfassung von Besprechungen, bei der die Zusammenfassung eines Kontexts (Besprechungsprotokoll) als Reaktion auf eine spezifische Abfrage generiert wird. Bei der Verwendung großer Sprachmodelle (LLMs) für diese Aufgabe ist für jede neue Abfrage ein neuer Aufruf des LLM-Inferenzendpunkts/API erforderlich, selbst wenn der Kontext gleich bleibt. Wiederholte Aufrufe der LLM-Inferenzendpunkte würden jedoch die Kosten für deren Nutzung in der Produktion erheblich erhöhen, was LLMs für viele realweltliche Anwendungsfälle unpraktisch macht. Um dieses Problem anzugehen, untersuchen wir in diesem Papier, ob die Kombination der Abfragen für denselben Eingabekontext in einer einzigen Eingabeaufforderung zur Minimierung wiederholter Aufrufe erfolgreich bei der Zusammenfassung von Besprechungen eingesetzt werden kann. In diesem Zusammenhang führen wir umfangreiche Experimente durch, indem wir die Leistung verschiedener beliebter LLMs vergleichen: GPT-4, PaLM-2, LLaMA-2, Mistral und FLAN-T5 in den Einstellungen für Einzel- und Mehrfachabfragen. Wir beobachten, dass, während die meisten LLMs dazu tendieren, auf die Multi-Query-Anweisungen zu reagieren, fast alle von ihnen (außer GPT-4), selbst nach Feinabstimmung, nicht in der Lage sind, die Antwort im erforderlichen Ausgabeformat korrekt zu generieren. Wir kommen zu dem Schluss, dass, während das Multi-Query-Prompting nützlich sein könnte, um die Inferenzkosten zu optimieren, indem Aufrufe an die Inferenzendpunkte/APIs für die Aufgabe der Zusammenfassung von Besprechungen reduziert werden, diese Fähigkeit, die Antwort zuverlässig im erwarteten Format zu generieren, nur auf bestimmte LLMs beschränkt ist.
Laskar et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: