What question did this study set out to answer?

Ziel dieser Forschung ist es, die Erkennung von Deepfakes mithilfe eines verbesserten EfficientNetV2S und Vision Transformers zu verbessern.

December 12, 2025

Erkennung von Deepfake-Videos basierend auf verbessertem EfficientNetV2S und Transformernetzwerk

Key Points

Ziel dieser Forschung ist es, die Erkennung von Deepfakes mithilfe eines verbesserten EfficientNetV2S und Vision Transformers zu verbessern.
Entwicklung eines hybriden Netzwerks, das EfficientNetV2S und Vision Transformer zur Erkennung von Deepfakes kombiniert.
Modifiziertes Fused-Conv-Modul zu Tok-MLP und integriert einen Aufmerksamkeitsmechanismus.
Trainiert auf den Datensätzen DFDC, Celeb-DF v2 und FaceForensics++.
Umfassende Datenvorverarbeitung durchgeführt, um die Modellleistung zu verbessern.
Wettbewerbsfähige Ergebnisse in der Genauigkeit der Deepfake-Erkennung erzielt.
Die Praktikabilität des Ansatzes durch visuelle Analyse der DFDC-Datensatzvideos validiert.
Kapazität zur Unterscheidung gefälschter Videos signifikant verbessert.

Abstract

Mit der stetigen Weiterentwicklung des Deep Learnings haben Fälschungstechniken ständige Innovationen erfahren, was Einzelpersonen Vorteile bietet und erhebliche negative Folgen hat. Besonders hervorzuheben ist, dass diese gefälschten Videos außergewöhnlich realistisch geworden sind, nahezu vom menschlichen Auge nicht unterscheidbar und eine gewaltige Herausforderung bei der Fälschungserkennung darstellen. Viele aktuelle Modelle zur Erkennung von Deepfakes konzentrieren sich jedoch darauf, Evaluierungsmetriken und das Design der Modellarchitektur zu verbessern, wobei oft die notwendige Allgemeingültigkeit und Praktikabilität fehlt. Wir schlagen eine Methode zur Erkennung von Deepfakes vor, die auf einem hybriden Netzwerk basiert, um diesen Herausforderungen zu begegnen. Unser Ansatz nutzt ein verbessertes EfficientNetV2S als Backbone, ersetzt das ursprüngliche Fused-Conv-Modul durch ein Tok-MLP-Modul und integriert einen Aufmerksamkeitsmechanismus am Ende des Backbones. Anschließend wird die Ausgabe des Backbones in einen Vision Transformer (VIT) zur Klassifikation eingespeist. Umfassende Arbeiten in der Datenvorverarbeitung umfassen das Trainieren unseres Modells auf drei Datensätzen: DFDC, Celeb-DF v2 und FaceForensics++. Die erzielten Ergebnisse sind außergewöhnlich wettbewerbsfähig. Darüber hinaus validiert eine visuelle Analyse der DFDC-Datensatzvideos die Praktikabilität unseres Ansatzes und liefert herausragende Ergebnisse. Zusammenfassend lässt sich sagen, dass die unermüdliche Entwicklung der Deepfake-Technologie Herausforderungen und Chancen mit sich bringt. Unsere neuartige Methode zur Erkennung von Deepfakes, die auf einem hybriden Netzwerk basiert, verbessert die Möglichkeiten vorhandener Modelle und gewährleistet Praktikabilität und Effektivität in realen Szenarien.

KI fragen

Bookmark

KI fragen

Bookmark

Erkennung von Deepfake-Videos basierend auf verbessertem EfficientNetV2S und Transformernetzwerk

Key Points

Abstract

Cite This Study