December 3, 2022

Transformatorbasierte Sprachmodelle zur Erkennung von Softwareanfälligkeiten

Key Points

Key points are not available for this paper at this time.

Abstract

Die großen transformatorbasierten Sprachmodelle zeigen eine ausgezeichnete Leistung in der Verarbeitung natürlicher Sprache. Durch die Berücksichtigung der Übertragbarkeit des Wissens, das diese Modelle in einem Bereich erlangen, auf andere verwandte Bereiche und der Nähe natürlicher Sprachen zu hochgradigen Programmiersprachen wie C/C++ untersucht diese Arbeit, wie man (große) transformatorbasierte Sprachmodelle zur Erkennung von Softwareanfälligkeiten nutzen kann und wie gut diese Modelle für Aufgaben zur Erkennung von Anfälligkeiten geeignet sind. In diesem Zusammenhang präsentieren wir zunächst ein systematisches (kohärentes) Framework, das die Übersetzung von Quellcode, die Modellvorbereitung und die Inferenz detailliert beschreibt. Anschließend führen wir eine empirische Analyse von Softwareanfälligkeitsdatensätzen von C/C++-Quellcodes durch, die mehrere Anfälligkeiten im Zusammenhang mit dem Aufruf von Bibliotheksfunktionen, der Verwendung von Zeigern, der Verwendung von Arrays und arithmetischen Ausdrücken aufweisen. Unsere empirischen Ergebnisse zeigen die gute Leistung der Sprachmodelle in der Erkennung von Anfälligkeiten. Darüber hinaus weisen diese Sprachmodelle bessere Leistungsmetriken wie den F1-Score auf als die zeitgenössischen Modelle, nämlich bidirektionale Long Short Term Memory und bidirektionale Gated Recurrent Units. Das Experimentieren mit Sprachmodellen ist aufgrund der erforderlichen Rechenressourcen, Plattformen, Bibliotheken und Abhängigkeiten immer herausfordernd. Daher analysiert dieses Papier auch die beliebten Plattformen, um diese Modelle effizient feinabzustimmen, und gibt Empfehlungen für die Auswahl der Plattformen für unser Framework.

KI fragen

Bookmark