Key points are not available for this paper at this time.
Das explosive Wachstum sozialer Medien hat zu einem massiven Zustrom elektronischer Dokumente geführt, die verschiedene Facetten des täglichen Lebens beeinflussen. Die enorme und komplexe Natur dieses Inhalts macht es jedoch schwierig, wertvolle Erkenntnisse zu extrahieren. Die Zusammenfassung langer Dokumente ergibt sich in diesem Kontext als eine zentrale Technik, die umfangreiche Texte in prägnante und verständliche Zusammenfassungen destilliert. Dieses Papier präsentiert eine neuartige dreistufige Pipeline für eine effektive Zusammenfassung langer Dokumente. Der vorgeschlagene Ansatz kombiniert unüberwachte und überwachte Lerntechniken und verarbeitet große Dokumentensätze effizient, wobei nur minimale Rechenressourcen erforderlich sind. Unsere Methodologie führt einen einzigartigen Prozess zur Bildung semantischer Chunks durch spektrale dynamische Segmentation ein, wodurch Redundanz und Wiederholungen im Zusammenfassungsprozess effektiv reduziert werden. Im Gegensatz zu früheren Methoden bringt unser Ansatz jeden semantischen Chunk mit dem gesamten Zusammenfassungsabsatz in Einklang, wodurch das abstraktive Zusammenfassungsmodell Dokumente ohne Abbruch verarbeiten kann und das Zusammenfassungsmodell fehlende Informationen aus anderen Chunks ableiten kann. Um die Generierung der Zusammenfassung zu verbessern, verwenden wir ein ausgeklügeltes Rewrite-Modell basierend auf Bidirektionalen und Auto-Regressiven Transformern (BART), das Zusammenfassungsstrukturen umordnet und umformuliert, um deren Flüssigkeit und Kohärenz zu verbessern. Empirische Studien zu den langen Dokumenten aus dem Webis-TLDR-17-Datensatz zeigen, dass unser Ansatz die Effizienz abstraktiver Zusammenfassungs-Transformer erheblich steigert. Die Beiträge dieses Papiers bieten somit erhebliche Fortschritte im Bereich der Zusammenfassung langer Dokumente und bieten eine neuartige und effektive Methodik zur Zusammenfassung umfangreicher Texte im Kontext sozialer Medien.
Wang et al. (Sat.) haben diese Frage untersucht.