J'écris cet article à la suite d'un moment qui a réellement changé ma façon de penser à l'apprentissage par renforcement dans les systèmes d'IA modernes. En interagissant avec un modèle d'IA à grande échelle couramment utilisé (nom intentionnellement omis), j'ai participé à une conversation sur le maquillage, les soins de la peau et l'apparence personnelle. Sans demande explicite ni référence dans la conversation, le modèle a généré une image sans rapport représentant un groupe d'hommes se tenant à ce qui semblait être un site de construction ou de contact. Le résultat n'était ni offensant ni nuisible, mais il était inattendu. Plus important encore, cela a soulevé une question fondamentale : pourquoi le modèle a-t-il décidé que cette action était appropriée ? Cet article est le résultat de l'exploration de cette question.
Snehal Kalebag (jeu,) a étudié cette question.