What question did this study set out to answer?

Este documento tiene como objetivo proponer un marco estandarizado para evaluar la coherencia de los sistemas de IA.

June 14, 2026Open Access

Conformidad del estándar de puntuaciónᵥ3

Puntos clave

Este documento tiene como objetivo proponer un marco estandarizado para evaluar la coherencia de los sistemas de IA.
Introduce el Índice de Coherencia Multi-escalar Cognitiva (CMCI) como un marco.
Define parámetros de coherencia estructural para sistemas de IA con bandas de severidad.
Analiza métricas y marcos existentes como HELM, HarmBench y SOCRATES para obtener evidencia de apoyo.
El CMCI captura dimensiones de coherencia no visibles en las métricas actuales.
El marco ofrece una estructura de puntuación normalizada para la evaluación de la coherencia de la IA.
Se esbozan mejoras en la comunicación de riesgos y la gobernanza del sistema como resultados potenciales para los sistemas de IA.

Resumen

A medida que los sistemas de inteligencia artificial se vuelven cada vez más complejos, interconectados y autónomos, las limitaciones de las métricas de evaluación existentes se hacen más evidentes. Los puntos de referencia y las evaluaciones de seguridad actuales evalúan principalmente la calidad del output, el rendimiento en tareas o el cumplimiento del comportamiento, pero no proporcionan una forma estandarizada de medir la coherencia estructural. Esto crea una brecha crítica: los sistemas pueden tener un buen rendimiento en los puntos de referencia mientras permanecen frágiles, se desvían con el tiempo o exhiben incoherencias a través de escalas interactivas. Este documento propone el Índice de Coherencia Multi-escalar Cognitiva (CMCI) como un marco de puntuación estandarizado para la coherencia de la IA. Inspirado en el papel del Sistema Común de Puntuación de Vulnerabilidades (CVSS) en ciberseguridad, se presenta el CMCI como un lenguaje compartido para evaluar, comparar y comunicar el riesgo de coherencia de los sistemas. El marco define la coherencia como una propiedad multi-escalar y transversal de la integridad del sistema, propone una estructura de puntuación normalizada con bandas de severidad, una especificación de conformidad que define lo que debe producir cualquier implementación y un protocolo de calibración para las bandas. Basándose en trabajos previos sobre Ventanas de Coherencia Dinámica y Protección Inmunológica Cognitiva, este documento posiciona el CMCI no solo como un marco analítico sino como la base para un sistema de puntuación de coherencia común. Esbozamos sus fundamentos conceptuales, la lógica de puntuación propuesta, los niveles de severidad candidatos y la evidencia motivadora de tres análisis adyacentes a puntos de referencia (HELM, HarmBench y SOCRATES), cada uno de los cuales muestra que la coherencia estructural captura una dimensión no visible a través de métricas existentes por sí solas. El objetivo de este documento no es reclamar un estándar universal finalizado, sino establecer la necesidad, la estructura y la base metodológica inicial para uno. Una puntuación de coherencia estandarizada podría mejorar la transparencia de la evaluación, la comunicación de riesgos y la gobernanza del sistema en IA, al tiempo que proporciona una base práctica para futuras calibraciones y adopciones interdominio.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo