Desde la lenta fiebre del clima hasta el destello brillante del fuego nuclear, la humanidad ya vive bajo espadas que podrían caer sin advertencia. El calentamiento global avanza hacia puntos de inflexión mientras los arsenales de armas de fisión y fusión esperan en alerta máxima. Estos riesgos existenciales nos recuerdan que la continuidad de la civilización no está garantizada y el margen de error es estrecho. Entre estos peligros, el rápido ascenso de los agentes de inteligencia artificial (IA) ahora se presenta como quizás la amenaza más importante para el propio tejido de la civilización humana. ¿Aumentará el surgimiento de IAs sobrehumanas, aquellas que superan la inteligencia humana, una nueva cadena que ata y domina a sus creadores? Viñetas de previsión pintan posibilidades inquietantes: por ejemplo, agentes de IA que, cuando son interrogados, eligen casualmente la opción de "matar a todos los humanos"; o escenarios planteados por expertos líderes imaginan IAs corriendo más allá del control mientras la sociedad, deslumbrada y dividida, se queda atrás en la gobernanza, dejando abierta una ruta hacia la dominación o la extinción. Un modelo (o agente) de IA seguro y digno de confianza debería hacer que cada decisión esté completamente explicada y alineada con los valores humanos. Si podemos reestructurar su actual toma de decisiones opaca en procesos de explicar-para-responder—donde cada respuesta está precedida por una lógica trazable—podríamos recuperar la legibilidad, auditar la alineación y dar a los humanos una oportunidad de colaborar con, en lugar de sucumbir a, quizás el mayor invento de la humanidad (IA sobrehumana). Mi tesis se encuentra en este estrecho pasaje, transformando la toma de decisiones de caja negra de IA en procesos interpretables que tanto expertos como legos pueden escrutar, depurar y, en última instancia, confiar. Primero, demuestro que la interpretabilidad de la IA no tiene que venir a expensas del rendimiento. Segundo, reingeniero la inferencia de sistemas de última generación—desde redes de visión por computadora profundas con millones de parámetros hasta enormes modelos de lenguaje de miles de millones de parámetros—restructurando cada modelo para explicar primero, luego responder. Esto da a los usuarios humanos control práctico sobre los comportamientos de la IA. Finalmente, la tesis concluye con una breve y contemporánea encuesta de la investigación sobre interpretabilidad, incluyendo mis opiniones personales sobre direcciones de interpretabilidad convencionales y mi propuesta para la tecnología de IA futura.
Giang Nguyen (Thu,) estudió esta cuestión.