Los puntos clave no están disponibles para este artículo en este momento.
Este artículo investiga la efectividad de los transformadores preentrenados auto-supervisados en comparación con los transformadores preentrenados supervisados y las redes neuronales convencionales (ConvNets) para detectar varios tipos de deepfakes. Nos centramos en su potencial para una mejor generalización, particularmente cuando los datos de entrenamiento son limitados. A pesar del notable éxito de los modelos grandes de visión-lenguaje que utilizan arquitecturas de transformadores en varias tareas, incluida la aprendizaje cero disparos y pocos disparos, la comunidad de detección de deepfake aún ha mostrado cierta renuencia a adoptar transformadores de visión preentrenados (ViTs), especialmente los grandes, como extractores de características. Una preocupación es su capacidad percibida como excesiva, que a menudo exige datos extensos, y la resultante generalización subóptima cuando los datos de entrenamiento o ajuste fino son pequeños o menos diversos. Esto contrasta mal con los ConvNets, que ya se han establecido como extractores de características robustos. Además, entrenar y optimizar transformadores desde cero requiere recursos computacionales significativos, lo que hace que esto sea accesible principalmente a grandes empresas y dificulta una investigación más amplia dentro de la comunidad académica. Los avances recientes en el uso del aprendizaje auto-supervisado (SSL) en transformadores, como DINO y sus derivados, han mostrado una notable adaptabilidad en diversas tareas de visión y poseen capacidades explícitas de segmentación semántica. Al aprovechar DINO para la detección de deepfakes con datos de entrenamiento modestos e implementar un ajuste fino parcial, observamos una adaptabilidad comparable a la tarea y la natural explicabilidad del resultado de detección a través del mecanismo de atención. Además, el ajuste fino parcial de transformadores para la detección de deepfakes ofrece una alternativa más eficiente en recursos, requiriendo significativamente menos recursos computacionales.
Nguyen et al. (Mié,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: