August 2, 2024Open Access

In Richtung vertrauenswürdiger KI-gestützter Entscheidungshilfesysteme: Validierung der Multisource AI Scorecard Tabelle (MAST)

Key Points

Key points are not available for this paper at this time.

Abstract

Die Multisource AI Scorecard Tabelle (MAST) ist ein Checklisteninstrument zur Information über die Gestaltung und Bewertung vertrauenswürdiger KI-Systeme, basierend auf den analytischen Standards der U.S. Intelligence Community. In dieser Studie untersuchen wir, ob MAST verwendet werden kann, um zwischen hoch und wenig vertrauenswürdigen KI-gestützten Entscheidungshilfesystemen (AI-DSS) zu unterscheiden. Das Bewerten von Vertrauen in AI-DSS stellt Forscher und Praktiker vor Herausforderungen. Zu diesen Herausforderungen gehört die Identifizierung der Komponenten, Fähigkeiten und Potenziale dieser Systeme, von denen viele auf den komplexen Deep-Learning-Algorithmen basieren, die die Leistung von DSS steuern und eine vollständige manuelle Inspektion ausschließen. Mit MAST haben wir zwei interaktive AI-DSS-Testumgebungen entwickelt. Eine simulierte eine Identitätsverifizierung bei Sicherheitsprüfungen, und die andere simulierte ein Textzusammenfassungsystem, um bei einer Ermittlungsaufgabe zu unterstützen. Jede Testumgebung hatte eine Version, die auf niedrige MAST-Bewertungen ausgelegt war, und eine andere, die auf hohe MAST-Bewertungen ausgelegt war. Wir haben die Hypothese aufgestellt, dass MAST-Bewertungen positiv mit den Vertrauensbewertungen dieser Systeme korreliert sind. Insgesamt wurden 177 Fachexperten rekrutiert, um mit diesen Systemen zu interagieren und sie zu bewerten. Die Ergebnisse zeigen im Allgemeinen höhere MAST-Bewertungen für die hoch-MAST verglichen mit den niedrig-MAST Gruppen, und dass die Maße für Vertrauenswahrnehmungen stark mit den MAST-Bewertungen korreliert sind. Wir schließen daraus, dass MAST ein nützliches Instrument zur Gestaltung und Bewertung von Systemen sein kann, die Vertrauenswahrnehmungen fördern, auch für AI-DSS, die zur Unterstützung visueller Screening- oder Textzusammenfassungsaufgaben verwendet werden könnten. Höhere MAST-Bewertungen mögen jedoch nicht in eine höhere gemeinsame Leistung übersetzen, und die Verbindung zwischen MAST und angemessenem Vertrauen oder Vertrauenswürdigkeit bleibt eine offene Frage.

In Richtung vertrauenswürdiger KI-gestützter Entscheidungshilfesysteme: Validierung der Multisource AI Scorecard Tabelle (MAST)

Key Points

Abstract

Cite This Study