Key points are not available for this paper at this time.
Dieses Papier behandelt das Problem, einen neuartigen Ansatz zur Beschaffung signifikanter Trainingsdaten für LLMs im Bereich Wissenschaft und Technik bereitzustellen. Insbesondere ist eine entscheidende Herausforderung die Beschaffung paralleler wissenschaftlicher Codes im Bereich von Millionen bis Milliarden von Codes. Um dieses Problem anzugehen, schlagen wir ein automatisiertes Pipeline-Framework namens LASSI vor, das darauf ausgelegt ist, zwischen parallelen Programmiersprachen zu übersetzen, indem es bestehende geschlossene oder Open-Source-LLMs anstößt. LASSI integriert autonome Verbesserung durch selbstkorrektierende Schleifen, in denen Fehler, die während der Kompilierung und Ausführung des generierten Codes auftreten, durch geführte Eingabe zur Fehlersuche und Refaktorisierung an das LLM zurückgespeist werden. Wir heben die bidirektionale Übersetzung bestehender GPU-Benchmarks zwischen OpenMP-Zielauslagerung und CUDA hervor, um LASSI zu validieren. Die Ergebnisse der Bewertung von LASSI mit verschiedenen Anwendungs-Codes über vier LLMs zeigen die Effektivität von LASSI zur Generierung ausführbarer paralleler Codes, wobei 80 % der Übersetzungen von OpenMP nach CUDA und 85 % der Übersetzungen von CUDA nach OpenMP die erwartete Ausgabe produzieren. Wir beobachten auch, dass etwa 78 % der Übersetzungen von OpenMP nach CUDA und 62 % der Übersetzungen von CUDA nach OpenMP innerhalb von 10 % der ursprünglichen Benchmark-Codes in derselben Sprache oder schneller ausgeführt werden.
Dearing et al. (Sun,) haben diese Frage untersucht.