Zusammenfassung Der recente Anstieg von großen Sprachmodellen (LLMs) hat zu der Behauptung geführt, dass sie ein Kreativitätsniveau erreichen, das den menschlichen Fähigkeiten ähnelt. Diese Idee hat eine Mischung aus Begeisterung und Besorgnis ausgelöst. Ein entscheidendes Element, das in dieser Diskussion fehlt, ist jedoch eine systematische Bewertung der semantischen Vielfalt von LLMs, insbesondere im Vergleich zum divergenten Denken von Menschen. Um diese Lücke zu schließen, nutzen wir die jüngsten Fortschritte in der rechnergestützten Kreativität, um die semantische Divergenz sowohl bei modernsten LLMs als auch bei einem beträchtlichen Datensatz von 100.000 Menschen zu analysieren. Diese divergenzbasierenden Maßnahmen erfassen assoziatives Denken—die Fähigkeit, entfernte Konzepte im semantischen Raum zuzugreifen und zu kombinieren—eine etablierte Facette kreativen Denkens. Wir benchmarken die Leistung bei der Divergent Association Task (DAT) und bei mehreren kreativen Schreibaufgaben (Haiku, Story-Synopsen und Flash Fiction) mit identischer, objektiver Bewertung. Wir fanden Hinweise darauf, dass LLMs die durchschnittliche menschliche Leistung bei der DAT übertreffen können und den kreativen Schreibfähigkeiten von Menschen nahekommen, jedoch bleiben sie unter den durchschnittlichen Kreativitätswerten, die im kreativsten Segment der menschlichen Teilnehmer beobachtet wurden. Bemerkenswerterweise werden selbst die besten LLMs immer noch größtenteils von der aggregierten oberen Hälfte der menschlichen Teilnehmer übertroffen, was eine Obergrenze verdeutlicht, die aktuelle LLMs noch nicht überschreiten können. Wir variierten auch systematisch sprachliche Strategieanweisungen und die Temperatur und beobachteten zuverlässige Zuwächse in der semantischen Divergenz für mehrere Modelle. Unser Benchmarking-Rahmen für Mensch-Maschine geht auf die polemischen Diskussionen über den bevorstehenden Ersatz menschlicher kreativer Arbeit durch KI ein und entwirrt die Qualität der jeweiligen kreativen sprachlichen Outputs mithilfe etablierter objektiver Maßstäbe. Während wir eine tiefere Erkundung der charakteristischen Elemente menschlichen erfinderischen Denkens im Vergleich zu denen von KI-Systemen anregen, präsentieren wir eine Reihe von Techniken zur Verbesserung ihrer Outputs in Bezug auf semantische Vielfalt, wie z.B. die Gestaltung von Anweisungen und das Tuning von Hyperparametern.
Bellemare-Pepin et al. (Wed,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: