May 25, 2024Open Access

5W1H-Extraktion mit großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Die Extraktion wesentlicher Nachrichten-Elemente durch das 5W1H-Rahmenwerk (Was, Wann, Wo, Warum, Wer und Wie) ist entscheidend für die Ereignisextraktion und Textzusammenfassung. Das Aufkommen von großen Sprachmodellen (LLMs) wie ChatGPT bietet die Möglichkeit, sprachbezogene Aufgaben durch einfache Eingabeaufforderungen ohne zeitaufwendiges Feintuning der Modelle anzugehen. Während ChatGPT Herausforderungen bei der Verarbeitung längerer Nachrichtentexte und der Analyse spezifischer Attribute im Kontext begegnet ist, insbesondere bei der Beantwortung von Fragen zu Was, Warum und Wie, ist die Effektivität der Extraktionsaufgaben bemerkenswert von hochwertigen, menschlich annotierten Datensätzen abhängig. Das Fehlen solcher Datensätze für die 5W1H-Extraktion erhöht jedoch die Schwierigkeit von Feintuning-Strategien basierend auf Open-Source-LLMs. Um diese Einschränkungen zu beheben, annotieren wir zunächst einen hochwertigen 5W1H-Datensatz basierend auf vier typischen Nachrichtencorpora (CNN/DailyMail, XSum, NYT, RA-MDS); zweitens entwerfen wir mehrere Strategien vom Zero-Shot/Few-Shot-Prompting bis zum effizienten Feintuning, um 5W1H-Aspekte aus den Originalnachrichtendokumenten zu extrahieren. Die experimentellen Ergebnisse zeigen, dass die Leistung der feingetunten Modelle auf unserem annotierten Datensatz besser ist als die Leistung von ChatGPT. Darüber hinaus untersuchen wir auch die Anpassungsfähigkeit an verschiedene Domänen, indem wir die Modelle der Quell-Domäne (z. B. NYT) an dem Korpus der Ziel-Domäne (z. B. CNN/DailyMail) für die Aufgabe der 5W1H-Extraktion testen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper