April 4, 2024Open Access

Explicando la Explicabilidad: Entendiendo los Vectores de Activación de Conceptos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los métodos recientes de interpretabilidad proponen usar explicaciones basadas en conceptos para traducir las representaciones internas de los modelos de aprendizaje profundo a un lenguaje con el que los humanos están familiarizados: los conceptos. Esto requiere entender qué conceptos están presentes en el espacio de representación de una red neuronal. Un método popular para encontrar conceptos son los Vectores de Activación de Conceptos (CAVs), que se aprenden utilizando un conjunto de datos de ejemplos de conceptos. En este trabajo, investigamos tres propiedades de los CAVs. Los CAVs pueden ser: (1) inconsistentes entre capas, (2) entrelazados con diferentes conceptos, y (3) dependientes espacialmente. Cada propiedad presenta tanto desafíos como oportunidades en la interpretación de modelos. Introducimos herramientas diseñadas para detectar la presencia de estas propiedades, proporcionar una visión sobre cómo afectan las explicaciones derivadas y ofrecer recomendaciones para minimizar su impacto. Comprender estas propiedades puede ser utilizado a nuestro favor. Por ejemplo, introducimos CAVs dependientes espacialmente para probar si un modelo es invariante a la traducción con respecto a un concepto y clase específicos. Nuestros experimentos se realizan en ImageNet y un nuevo conjunto de datos sintético, Elements. Elements está diseñado para capturar una relación de verdad conocida entre conceptos y clases. Publicamos este conjunto de datos para facilitar investigaciones adicionales en la comprensión y evaluación de métodos de interpretabilidad.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo