June 25, 2024Open Access

Localización de Inpainting de Video con Aprendizaje Contrastivo

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El inpainting de video profundo se utiliza típicamente como manipulación maliciosa para eliminar objetos importantes con el fin de crear videos falsos. Es significativo identificar las regiones inpainted de manera ciega. Esta carta propone un esquema forense simple pero efectivo para la Localización de Inpainting de Video con Aprendizaje Contrastivo (ViLocal). Específicamente, se aplica un codificador 3D Uniformer al residuo de ruido de video para aprender características forenses espaciotemporales efectivas. Para mejorar el poder discriminativo, se adopta el aprendizaje contrastivo supervisado para capturar la inconsistencia local de los videos inpainted atrayendo/rechazando los pares de píxeles positivos/negativos prístinos y falsificados. Se genera un mapa de localización de inpainting a nivel de píxel mediante un decodificador convolucional ligero con una estrategia de entrenamiento especializada de dos etapas. Para preparar suficientes muestras de entrenamiento, construimos un conjunto de datos de segmentación de objetos de video de 2500 videos con anotaciones a nivel de píxel por cuadro. Resultados experimentales extensivos validan la superioridad de ViLocal sobre el estado del arte. El código y el conjunto de datos estarán disponibles en https://github.com/multimediaFor/ViLocal.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo