Los puntos clave no están disponibles para este artículo en este momento.
Los últimos años han sido testigos de un progreso tremendo en el aprendizaje auto-supervisado (SSL), cuyo éxito se puede atribuir a la introducción de sesgos inductivos útiles en el proceso de aprendizaje para aprender representaciones visuales significativas mientras se evita el colapso. Estos sesgos inductivos y restricciones se manifiestan en la forma de diferentes formulaciones de optimización en las técnicas de SSL, por ejemplo, utilizando ejemplos negativos en una formulación contrastiva, o media móvil exponencial y predictor en BYOL y SimSiam. En este trabajo, proporcionamos un marco para explicar el mecanismo de estabilidad de estas diferentes técnicas de SSL: i) discutimos el mecanismo de funcionamiento de técnicas contrastivas como SimCLR, técnicas no contrastivas como BYOL, SWAV, SimSiam, Barlow Twins y DINO; ii) proporcionamos un argumento de que a pesar de las diferentes formulaciones, estos métodos optimizan implícitamente una función objetivo similar, es decir, minimizar la magnitud de la representación esperada sobre todas las muestras de datos, o la media de la distribución de datos, mientras maximizan la magnitud de la representación esperada de muestras individuales sobre diferentes aumentos de datos; iii) proporcionamos evidencia matemática y empírica para respaldar nuestro marco. Formulamos diferentes hipótesis y las probamos utilizando el conjunto de datos Imagenet100.
Jha et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: