March 24, 2024Open Access

SpikingBERT: BERT destillieren, um spikende Sprachmodelle mit impliziter Differenzierung zu trainieren

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs), obwohl sie äußerst leistungsfähig werden, bestehen aus Größenordnungen weniger Neuronen und Synapsen als das menschliche Gehirn. Dennoch erfordert ihr Betrieb signifikant mehr Energie. In dieser Arbeit schlagen wir ein neuartiges bio-inspiriertes spikendes Sprachmodell (LM) vor, das darauf abzielt, die Rechenkosten konventioneller LMs zu reduzieren, indem es sich von dem synaptischen Informationsfluss im Gehirn inspirieren lässt. In diesem Papier demonstrieren wir einen Rahmen, der die durchschnittliche Spike-Rate von Neuronen im Gleichgewicht nutzt, um ein neuromorphes spikendes LM mit der Technik der impliziten Differenzierung zu trainieren, wodurch das Problem der Nicht-Differenzierbarkeit von algorithmen basierten auf spikenden neuronalen Netzwerken (SNN) ohne irgendeine Art von Surrogatgradient überwunden wird. Die stationäre Konvergenz der spikenden Neuronen erlaubt uns auch, einen spikenden Aufmerksamkeitsmechanismus zu entwerfen, der entscheidend für die Entwicklung eines skalierbaren spikenden LMs ist. Darüber hinaus wird die Konvergenz der durchschnittlichen Spike-Rate von Neuronen im Gleichgewicht genutzt, um eine neuartige Technik zur Wissensdestillation von ANN zu SNN zu entwickeln, bei der wir ein vortrainiertes BERT-Modell als „Lehrer“ nutzen, um unsere „Schüler“-Spitzenarchitektur zu trainieren. Während die primäre Architektur, die in diesem Papier vorgeschlagen wird, von BERT motiviert ist, kann die Technik potenziell auf verschiedene Arten von LLMs ausgeweitet werden. Unsere Arbeit ist die erste, die die Leistung einer operativen spikenden LM-Architektur bei mehreren verschiedenen Aufgaben im GLUE-Benchmark demonstriert. Der Quellcode unserer Implementierung ist verfügbar unter https://github.com/NeuroCompLab-psu/SpikingBERT.

SpikingBERT: BERT destillieren, um spikende Sprachmodelle mit impliziter Differenzierung zu trainieren

Key Points

Abstract

Cite This Study