Interpretierbarkeit über Merkmalsattribution hinaus: Quantitative Tests mit Konzeptaktivierungsvektoren (TCAV)

Key Points

Key points are not available for this paper at this time.

Abstract

Die Interpretation von Deep-Learning-Modellen ist eine Herausforderung aufgrund ihrer Größe und oft undurchsichtigen internen Zustände. Darüber hinaus basieren viele Systeme, wie z. B. Klassifikatoren, auf niederen Merkmalen statt auf höherwertigen. Um diese Herausforderungen anzugehen, führen wir Konzeptaktivierungsvektoren (CAVs) ein, die eine Interpretation des internen Zustands eines neuronalen Netzes in menschlich verständlichen Konzepten bieten. Die zentrale Idee besteht darin, den hochdimensionalen Zustand eines neuronalen Netzes als Hilfsmittel und nicht als Hindernis zu betrachten. Wir zeigen, wie man dies als Teil einer Technik, Testing mit CAVs (TCAV), verwenden kann, die Richtungsvektoren nutzt, um zu quantifizieren, inwieweit ein benutzerdefiniertes Konzept für ein Klassifikationsergebnis wichtig ist – zum Beispiel, wie empfindlich eine Vorhersage von "Zebra" auf das Vorhandensein von Streifen reagiert. Unter Verwendung des Bereichs der Bildklassifikation als Grundlage beschreiben wir, wie CAVs verwendet werden können, um Hypothesen und Erkenntnisse für ein Standard-Bildklassifikationsnetzwerk sowie eine Anwendung zu erkunden.

Bookmark

View Full Paper

Bookmark

View Full Paper

Interpretierbarkeit über Merkmalsattribution hinaus: Quantitative Tests mit Konzeptaktivierungsvektoren (TCAV)

Key Points

Abstract

Cite This Study