Key points are not available for this paper at this time.
Jüngste Durchbrüche im Bereich der natürlichen Sprachverarbeitung (NLP) haben die Synthese und das Verständnis kohärenter Texte auf offene Weise ermöglicht, wodurch die theoretischen Algorithmen in praktische Anwendungen übersetzt wurden. Die großen Sprachmodelle (LLMs) haben einen erheblichen Einfluss auf Unternehmen wie Software zur Zusammenfassung von Berichten und Werbetexter. Beobachtungen zeigen jedoch, dass LLMs soziale Vorurteile und Toxizität aufweisen können, was ethische und gesellschaftliche Gefahren aufgrund von Verantwortungslosigkeit mit sich bringt. Daher sollten groß angelegte Benchmarks für verantwortungsvolle LLMs entwickelt werden. Obwohl mehrere empirische Untersuchungen das Vorhandensein einiger ethischer Schwierigkeiten in fortgeschrittenen LLMs aufzeigen, gibt es nur wenige systematische Untersuchungen und Nutzerstudien zu den Risiken und schädlichen Verhaltensweisen der aktuellen LLM-Nutzung. Um künftige Anstrengungen zum verantwortungsvollen Aufbau ethischer LLMs weiterzubilden, wenden wir eine qualitative Forschungsmethode namens „Red Teaming“ auf OpenAIs ChatGPT an, um die praktischen Merkmale ethischer Gefahren in aktuellen LLMs besser zu verstehen. Wir analysieren ChatGPT umfassend aus vier Perspektiven: 1) Vorurteile 2) Zuverlässigkeit 3) Robustheit 4) Toxizität. In Übereinstimmung mit unseren Aussagen benchmarken wir ChatGPT empirisch anhand mehrerer Beispieldatensätze. Wir stellen fest, dass eine signifikante Anzahl ethischer Risiken von bestehenden Benchmarks nicht adressiert werden kann, und veranschaulichen sie daher anhand zusätzlicher Fallstudien. Darüber hinaus untersuchen wir die Auswirkungen unserer Erkenntnisse auf die KI-Ethischen und schädlichen Verhaltensweisen von ChatGPT sowie zukünftige Probleme und praktische Designüberlegungen für verantwortungsvolle LLMs. Wir glauben, dass unsere Ergebnisse Licht auf zukünftige Bemühungen werfen können, die ethischen Gefahren von Maschinen in LLM-Anwendungen zu bestimmen und abzumildern.
Zhuo et al. (Mon,) haben diese Frage untersucht.