Key points are not available for this paper at this time.
Das Versprechen von KI für wissenschaftliche Arbeiten ist bezaubernd und leicht vorstellbar, aber die damit verbundenen Risiken sind oft schwer zu erkennen und in der Regel nicht sofort offensichtlich. In diesem Meinungsstück untersuchen wir die Machbarkeit, Chancen und Risiken der Nutzung großer Sprachmodelle (LLMs) für die Begutachtung akademischer Einreichungen, während wir den Menschen in der Schleife behalten. Wir experimentieren mit GPT-4 in der Rolle eines Gutachters, um die Chancen und Risiken, die wir erleben, und Möglichkeiten zu deren Minderung aufzuzeigen. Die Gutachten sind gemäß einem Konferenzbewertungsformular strukturiert, mit dem doppelten Zweck, Einreichungen für redaktionelle Entscheidungen zu evaluieren und den Autoren konstruktives Feedback gemäß vordefinierten Kriterien zu geben, die Beitrag, Solidität und Präsentation umfassen. Wir zeigen die Machbarkeit, indem wir LLM-Gutachten mit menschlichen Gutachten bewerten und vergleichen, wobei wir zu dem Schluss kommen, dass die aktuelle KI-unterstützte Begutachtung ausreichend genau ist, um die Last der Begutachtung zu verringern, jedoch nicht vollständig und nicht in allen Fällen. Danach enumerieren wir die Chancen der KI-unterstützten Begutachtung und präsentieren offene Fragen. Anschließend identifizieren wir die Risiken der KI-unterstützten Begutachtung und heben Verzerrungen, Wertmissalignment und Missbrauch hervor. Wir schließen mit Empfehlungen zum Umgang mit diesen Risiken.
Drori et al. (Mon,) haben diese Frage untersucht.