April 22, 2024Open Access

Évaluations holistiques de la sécurité et de la responsabilité des modèles avancés d'IA

Key Points

Key points are not available for this paper at this time.

Abstract

Les évaluations de sécurité et de responsabilité des modèles avancés d'IA constituent un domaine de recherche et de pratique critique mais en développement. Dans le développement des modèles avancés d'IA de Google DeepMind, nous avons innové et appliqué un large éventail d'approches pour l'évaluation de la sécurité. Dans ce rapport, nous résumons et partageons des éléments de notre approche évolutive ainsi que les leçons apprises pour un large public. Les principales leçons tirées incluent : Premièrement, les fondements théoriques et les cadres sont inestimables pour organiser l'étendue des domaines de risque, des modalités, des formes, des métriques et des objectifs. Deuxièmement, la théorie et la pratique du développement de l'évaluation de la sécurité bénéficient chacune de la collaboration pour clarifier les objectifs, les méthodes et les défis, et faciliter le transfert d'enseignements entre différentes parties prenantes et disciplines. Troisièmement, des méthodes clés similaires, des leçons et des institutions s'appliquent à l'éventail des préoccupations relatives à la responsabilité et à la sécurité - y compris les préjudices établis et émergents. Pour cette raison, il est important qu'une large gamme d'acteurs travaillant sur l'évaluation de la sécurité et des communautés de recherche en sécurité collaborent pour développer, affiner et mettre en œuvre de nouvelles approches d'évaluation et meilleures pratiques, plutôt que de fonctionner en silo. Le rapport se conclut en soulignant le besoin clair d'avancer rapidement la science des évaluations, d'intégrer de nouvelles évaluations dans le développement et la gouvernance de l'IA, d'établir des normes et des standards fondés sur la science, et de promouvoir un écosystème d'évaluation robuste.

Évaluations holistiques de la sécurité et de la responsabilité des modèles avancés d'IA

Key Points

Abstract

Cite This Study

Also Consider

Also Consider