August 19, 2024Open Access

CMoralEval: Ein Benchmark für die moralische Evaluation von chinesischen großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Was würde ein großes Sprachmodell (LLM) in einem ethisch relevanten Kontext antworten? In diesem Papier kuratieren wir ein großes Benchmark, CMoralEval, zur moralischen Bewertung chinesischer LLMs. Die Datenquellen von CMoralEval sind zweifach: 1) ein chinesisches Fernsehprogramm, das über chinesische moralische Normen mit Geschichten aus der Gesellschaft spricht, und 2) eine Sammlung chinesischer moralischer Anomien aus verschiedenen Zeitungen und wissenschaftlichen Arbeiten über Moral. Mit diesen Quellen streben wir an, einen Datensatz zur moralischen Bewertung zu erstellen, der durch Vielfalt und Authentizität gekennzeichnet ist. Wir entwickeln eine Moralphilosophie-Taxonomie und eine Reihe grundlegender moralischer Prinzipien, die nicht nur in der traditionellen chinesischen Kultur verwurzelt sind, sondern auch mit zeitgenössischen gesellschaftlichen Normen übereinstimmen. Um den effizienten Aufbau und die Annotation von Instanzen in CMoralEval zu erleichtern, etablieren wir eine Plattform mit KI-unterstützter Instanzgenerierung, um den Annotierungsprozess zu vereinfachen. Diese helfen uns, CMoralEval zu kuratieren, das sowohl explizite moralische Szenarien (14.964 Instanzen) als auch moralische Dilemma-Szenarien (15.424 Instanzen) umfasst, wobei jede Kategorie Instanzen aus verschiedenen Datenquellen enthält. Wir führen umfangreiche Experimente mit CMoralEval durch, um eine Vielzahl von chinesischen LLMs zu untersuchen. Die Experimentergebnisse zeigen, dass CMoralEval ein herausforderndes Benchmark für chinesische LLMs ist. Der Datensatz ist öffentlich verfügbar unter https: //github. com/tjunlp-lab/CMoralEval.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper