What type of study is this?

This is a Quantitative Study study.

October 22, 2025Open Access

Verbesserung des halbüberwachten Lernens im Bereich Educational Data Mining durch synthetische Datengenerierung unter Verwendung eines tabellarischen variationalen Autoencoders

Key Points

TVAE-SSL verbessert die Modellleistung bei Daten mit wenigen Labels erheblich, indem der unlabeled Probenpool erweitert wird.
In Experimenten übertraf TVAE-SSL die Basismodell-gestützten Modelle und erzielte höhere Genauigkeits- und F1-Score-Metriken.
Der Ansatz kombiniert originale unlabeled Daten mit synthetischen Proben, die aus gelabelten Daten generiert wurden, um die Trainingseffektivität zu verbessern.
Die Generierung synthetischer Daten zeigt Potenzial zur Verbesserung der Vielfalt der Trainingsproben, ohne Labelgeräusche einzuführen.

Abstract

Dieses Papier präsentiert TVAE-SSL, ein neuartiges Halbüberwachtes Lernparadigma (SSL), das die Einspeisung von synthetischen Daten, die mit einem Tabular Variational Autoencoder (TVAE) erzeugt wurden, in den Trainingsprozess umfasst, um die Modellleistung unter Bedingungen mit wenigen Labels in Aufgaben des Educational Data Mining zu verbessern. Der Algorithmus beginnt mit dem Training eines TVAE auf den gegebenen gelabelten Daten, um imitierende synthetische Proben der zugrunde liegenden Datenverteilung zu erzeugen. Diese synthetisierten Proben werden als zusätzliche unlabeled Daten behandelt und mit den ursprünglichen unlabeled Proben kombiniert, um einen erweiterten Trainingspool zu bilden. Ein Standard-SSL-Algorithmus (z. B. Self-Training) wird unter Verwendung eines Basis-Klassifikators (z. B. Random Forest) auf dem kombinierten Datensatz trainiert. Durch die Erweiterung des Pools unlabeled Proben mit realistischen synthetischen Daten verbessert TVAE-SSL die Menge und Vielfalt der Trainingsproben, ohne Labelgeräusche einzuführen. Großangelegte Experimente an verschiedenen Datensätzen zeigen, dass TVAE-SSL in Bezug auf Genauigkeit, F1-Score und Fairnessmetriken die Basismodell-gestützten Modelle im voll gelabelten Datensatz übertreffen kann. Unsere Ergebnisse zeigen das Potenzial der generativen Erweiterung zur Verbesserung der Effektivität des halbüberwachten Lernens für tabellarische Daten.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper