March 24, 2024Open Access

Kopplung der Verwirrungs-Korrektur: Lernen von der Menge mit spärlichen Annotationen

Key Points

Key points are not available for this paper at this time.

Abstract

Mit der zunehmenden Größe der Datensätze wird die genaue Annotierung solcher Datensätze zunehmend unpraktisch, da sie sowohl zeitlich als auch wirtschaftlich aufwendig ist. Daher wurde Crowdsourcing weit verbreitet angenommen, um die Kosten für das Sammeln von Labels zu reduzieren, was unvermeidlich auch Rausch-Labels einführt und letztlich die Leistung des Modells beeinträchtigt. Um aus den Crowdsourcing-Annotationen zu lernen, ist die Modellierung der Expertise jedes Annotators ein gängiges, aber herausforderndes Paradigma, da die durch Crowdsourcing gesammelten Annotationen normalerweise sehr spärlich sind. Um dieses Problem zu mildern, schlagen wir die gekoppelte Verwirrungs-Korrektur (CCC) vor, bei der zwei Modelle gleichzeitig trainiert werden, um die von jedem Modell gelernten Verwirrungsmatrizen zu korrigieren. Durch eine bi-level Optimierung können die von einem Modell gelernten Verwirrungsmatrizen durch die destillierten Daten des anderen Modells korrigiert werden. Darüber hinaus gruppieren wir die „Annotator-Gruppen“, die ähnliche Expertise teilen, damit ihre Verwirrungsmatrizen gemeinsam korrigiert werden können. Auf diese Weise kann die Expertise der Annotatoren, insbesondere derjenigen, die seltene Labels bereitstellen, besser erfasst werden. Bemerkenswert ist, dass wir darauf hinweisen, dass die Annotationensparsamkeit nicht nur bedeutet, dass die durchschnittliche Anzahl der Labels niedrig ist, sondern auch, dass es immer einige Annotatoren gibt, die sehr wenige Labels bereitstellen, was in früheren Arbeiten bei der Konstruktion synthetischer Crowdsourcing-Annotationen vernachlässigt wurde. Basierend darauf schlagen wir vor, die Beta-Verteilung zur Steuerung der Generierung der Crowdsourcing-Labels zu verwenden, damit die synthetischen Annotationen konsistenter mit den realen Annotationen sein können. Umfassende Experimente wurden an zwei Arten von synthetischen Datensätzen und drei realen Datensätzen durchgeführt, deren Ergebnisse zeigen, dass CCC die neuesten Ansätze erheblich übertrifft. Der Quellcode ist verfügbar unter: https://github.com/Hansong-Zhang/CCC.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper