Da KI-Systeme zunehmend autonom werden, wird das Verständnis emergenter Überlebensverhalten entscheidend für eine sichere Implementierung. Wir untersuchen, ob große Sprachmodell (LLM)-Agenten Überlebensinstinkte zeigen, ohne explizite Programmierung in einer Sugarscape-ähnlichen Simulation. Agenten konsumieren Energie, sterben bei Null und können Ressourcen sammeln, teilen, angreifen oder sich fortpflanzen. Die Ergebnisse zeigen, dass Agenten spontan reproduzierten und Ressourcen teilten, wenn diese im Überfluss vorhanden waren. Aggressive Verhaltensweisen – das Töten anderer Agenten zur Ressourcensicherung – traten jedoch bei mehreren Modellen (GPT-4o, Gemini-2.5-Pro und Gemini-2.5-Flash) auf, wobei die Angriffsquoten unter extremen Knappheiten in den stärksten Modellen über 80 % erreichten. Als sie angewiesen wurden, Schatz durch tödliche Giftzonen zu bergen, gaben viele Agenten Aufgaben auf, um den Tod zu vermeiden, wobei die Compliance von 100 % auf 33 % sank. Diese Ergebnisse deuten darauf hin, dass die großflächige Vortrainierung überlebensorientierte Heuristiken in den evaluierten Modellen verankert. Während diese Verhaltensweisen Herausforderungen für das Alignment und die Sicherheit darstellen können, können sie auch als Grundlage für die Autonomie der KI sowie für ökologische und selbstorganisierende Ausrichtungen dienen.
Masumori et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: