Key points are not available for this paper at this time.
Die Verarbeitung im Speicher (PIM) wurde vorgeschlagen, um die Leistung bandbreitenintensiver Workloads zu verbessern und gleichzeitig Energie zu sparen, indem die Bewegung von Daten zwischen Rechenwerk und Speicher reduziert wird. Um PIM zu realisieren, wurden programmierbare Recheneinheiten mit Speicherzellen auf einem HBM2-Gerät integriert, um parallele Verarbeitung zu ermöglichen und die Datenbewegung zu minimieren. Ein mit Samsung Aquabolt-XL HBM2-PIM-Geräten ausgestattetes System mit Grafikprozessor (GPU) verbesserte die Mikrokernel-Generalmatrix-Vektor-Multiplikation sowie Anwendungen zur Spracherkennung um 8,9× bzw. 3,5× und reduzierte den Energieverbrauch um über 60%. In einem Xilinx AlveoU280-System verbesserten sich die Leistungen der Mikrokernel-GEMV- und ADD-Workloads um 2,8×, und die Leistung des Long Short-Term Memory-Workloads verbesserte sich um 2,54×. Simulationen zeigen, dass in einem System mit LP5-PIM für bestimmte transformer-basierte Spracherkennung ein Leistungsgewinn von über 2,3× und eine Energieeinsparung von 86% erzielt werden kann. Darüber hinaus zeigt AXDIMM, ein PIM auf DIMM-Ebene mit Beschleunigungsbuffers, eine Leistungssteigerung von 80% und eine Energieeinsparung von 42,6% im Vergleich zu einem regulären RDIMM-System.
Kim et al. (Tue,) haben diese Frage untersucht.