Key points are not available for this paper at this time.
Die NLI4CT-Aufgabe bewertet Systeme für natürliche Sprachinferenz hinsichtlich ihrer Fähigkeit, vorherzusagen, ob Hypothesen Beweise aus klinischen Studienberichten beinhalten oder widerlegen. In dieser Studie bewerten wir verschiedene Large Language Models (LLMs) mit mehreren Strategien, einschließlich Chain-of-Thought, In-Context Learning und parametrisch effizientes Fine-Tuning (PEFT). Wir schlagen eine PEFT-Methode vor, um die Konsistenz der LLMs zu verbessern, indem wir Adapter kombinieren, die separat mit Triplet- und Sprachmodellierungszielen feinabgestimmt wurden. Wir haben festgestellt, dass das Zusammenführen der beiden PEFT-Adapter den F1-Score (+0,0346) und die Konsistenz (+0,152) der LLMs verbessert. Unsere neuartigen Methoden lieferten jedoch keine genaueren Ergebnisse als GPT-4 in Bezug auf Treue und Konsistenz. Durch das Mittelwertbilden der drei Metriken belegt GPT-4 den geteilten ersten Platz im Wettbewerb mit 0,8328. Schließlich zeigt unsere Kontaminationsanalyse mit GPT-4, dass es keinen Datenleck aus den Tests gab.
Gema et al. (Sat.) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: