A medida que los sistemas de inteligencia artificial se vuelven cada vez más complejos, interconectados y autónomos, las limitaciones de las métricas de evaluación existentes se hacen más evidentes. Los puntos de referencia y las evaluaciones de seguridad actuales evalúan principalmente la calidad del output, el rendimiento en tareas o el cumplimiento del comportamiento, pero no proporcionan una forma estandarizada de medir la coherencia estructural. Esto crea una brecha crítica: los sistemas pueden tener un buen rendimiento en los puntos de referencia mientras permanecen frágiles, se desvían con el tiempo o exhiben incoherencias a través de escalas interactivas. Este documento propone el Índice de Coherencia Multi-escalar Cognitiva (CMCI) como un marco de puntuación estandarizado para la coherencia de la IA. Inspirado en el papel del Sistema Común de Puntuación de Vulnerabilidades (CVSS) en ciberseguridad, se presenta el CMCI como un lenguaje compartido para evaluar, comparar y comunicar el riesgo de coherencia de los sistemas. El marco define la coherencia como una propiedad multi-escalar y transversal de la integridad del sistema, propone una estructura de puntuación normalizada con bandas de severidad, una especificación de conformidad que define lo que debe producir cualquier implementación y un protocolo de calibración para las bandas. Basándose en trabajos previos sobre Ventanas de Coherencia Dinámica y Protección Inmunológica Cognitiva, este documento posiciona el CMCI no solo como un marco analítico sino como la base para un sistema de puntuación de coherencia común. Esbozamos sus fundamentos conceptuales, la lógica de puntuación propuesta, los niveles de severidad candidatos y la evidencia motivadora de tres análisis adyacentes a puntos de referencia (HELM, HarmBench y SOCRATES), cada uno de los cuales muestra que la coherencia estructural captura una dimensión no visible a través de métricas existentes por sí solas. El objetivo de este documento no es reclamar un estándar universal finalizado, sino establecer la necesidad, la estructura y la base metodológica inicial para uno. Una puntuación de coherencia estandarizada podría mejorar la transparencia de la evaluación, la comunicación de riesgos y la gobernanza del sistema en IA, al tiempo que proporciona una base práctica para futuras calibraciones y adopciones interdominio.
Christian St-Louis (Vie,) estudió esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: