May 13, 2024

Kostenwirksames In-Context-Lernen für die Entitätsauflösung: Eine Untersuchung des Designraums

Key Points

Key points are not available for this paper at this time.

Abstract

Die Entitätsauflösung (ER) ist eine wichtige Datenintegrationsaufgabe mit einem breiten Anwendungsspektrum. Die hochmodernen Lösungen zur ER basieren auf vortrainierten Sprachmodellen (PLMs), die eine Feinabstimmung auf viele gekennzeichnete passende/nicht passende Entitätspaaren erfordern. Kürzlich haben große Sprachmodelle (LLMs), wie GPT-4, die Fähigkeit gezeigt, viele Aufgaben ohne Anpassung der Modellparameter durchzuführen, was als In-Context-Lernen (ICL) bekannt ist und effektives Lernen aus wenigen gekennzeichneten Eingabedemonstrationen ermöglicht. Bestehende ICL-Ansätze zur ER erfordern typischerweise die Bereitstellung einer Aufgabendefinition und einer Reihe von Demonstrationen für jedes Entitätspaar und weisen daher Einschränkungen in Bezug auf die monetären Kosten der Schnittstelle zu LLMs auf. Um das Problem anzugehen, bieten wir in diesem Papier eine umfassende Studie an, um zu untersuchen, wie man einen kosteneffektiven Batch-Eingangsansatz zur ER entwickeln kann. Wir stellen ein Framework BATCHER vor, das aus der Auswahl von Demonstrationen und der Gruppierung von Fragen besteht, und erkunden verschiedene Gestaltungsoptionen, die das Batch-Eingangsverfahren für ER unterstützen. Darüber hinaus entwickeln wir eine auf Abdeckung basierende Auswahlstrategie für Demonstrationen, die ein effektives Gleichgewicht zwischen Übereinstimmungsgenauigkeit und monetären Kosten erreicht. Wir führen eine gründliche Bewertung durch, um den Gestaltungsraum zu erkunden und unsere vorgeschlagenen Strategien zu evaluieren. Durch umfassende Experimente stellen wir fest, dass das Batch-Eingangsverfahren für ER sehr kosteneffektiv ist, verglichen nicht nur mit PLM-basierten Methoden, die mit umfangreichen gekennzeichneten Daten feinabgestimmt wurden, sondern auch mit LLM-basierten Methoden mit manuell gestalteten Eingaben. Wir bieten auch Hinweise zur Auswahl geeigneter Gestaltungsoptionen für das Batch-Eingangsverfahren an.

KI fragen

Bookmark