Dieses Papier präsentiert TVAE-SSL, ein neuartiges Halbüberwachtes Lernparadigma (SSL), das die Einspeisung von synthetischen Daten, die mit einem Tabular Variational Autoencoder (TVAE) erzeugt wurden, in den Trainingsprozess umfasst, um die Modellleistung unter Bedingungen mit wenigen Labels in Aufgaben des Educational Data Mining zu verbessern. Der Algorithmus beginnt mit dem Training eines TVAE auf den gegebenen gelabelten Daten, um imitierende synthetische Proben der zugrunde liegenden Datenverteilung zu erzeugen. Diese synthetisierten Proben werden als zusätzliche unlabeled Daten behandelt und mit den ursprünglichen unlabeled Proben kombiniert, um einen erweiterten Trainingspool zu bilden. Ein Standard-SSL-Algorithmus (z. B. Self-Training) wird unter Verwendung eines Basis-Klassifikators (z. B. Random Forest) auf dem kombinierten Datensatz trainiert. Durch die Erweiterung des Pools unlabeled Proben mit realistischen synthetischen Daten verbessert TVAE-SSL die Menge und Vielfalt der Trainingsproben, ohne Labelgeräusche einzuführen. Großangelegte Experimente an verschiedenen Datensätzen zeigen, dass TVAE-SSL in Bezug auf Genauigkeit, F1-Score und Fairnessmetriken die Basismodell-gestützten Modelle im voll gelabelten Datensatz übertreffen kann. Unsere Ergebnisse zeigen das Potenzial der generativen Erweiterung zur Verbesserung der Effektivität des halbüberwachten Lernens für tabellarische Daten.
Kostopoulos et al. (Sun,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: