Key points are not available for this paper at this time.
Enhancer spielen eine wichtige Rolle im Prozess der Regulierung der Genexpression. Die Abundance oder Abwesenheit von Enhancern in DNA-Sequenzen sowie Unregelmäßigkeiten in der Stärke von Enhancern beeinflussen den Prozess der Genexpression, der zur Initiierung und Ausbreitung verschiedener Arten genetischer Krankheiten wie Hämophilie, Blasenkrebs, Diabetes und kongenitalen Störungen führt. Die Identifizierung von Enhancern und die Vorhersage ihrer Stärke durch experimentelle Ansätze ist teuer, zeitaufwändig und fehleranfällig. Um die Forschung zur Identifizierung von Enhancern und zur Vorhersage ihrer Stärke zu beschleunigen, wurden rund 19 computergestützte Frameworks vorgeschlagen. Diese Frameworks verwenden Maschinen- und Deep-Learning-Methoden, die rohe DNA-Sequenzen analysieren und die Präsenz und Stärke von Enhancern vorhersagen. Allerdings weisen diese Frameworks noch schlechte Leistungen auf und sind bei Echtzeitanalysen nicht brauchbar. Dieses Papier präsentiert ein neuartiges Deep-Learning-Framework, das Sprachmodellierungsstrategien nutzt, um DNA-Sequenzen in einen statistischen Merkmalsraum zu transformieren. Es wendet Transferlernen an, indem ein Sprachmodell auf unüberwachter Basis trainiert wird, indem es eine Gruppe von Nucleotiden vorhersagt, die auch als k-mers bekannt sind, basierend auf dem Kontext der vorhandenen k-mers in einer Sequenz. In der Klassifizierungsphase wird ein neuartiger Klassifikator vorgestellt, der die Vorteile zweier verschiedener Architekturen nutzt: konvolutionales neuronales Netzwerk und Aufmerksamkeitsmechanismus. Das vorgeschlagene Framework wird über das Benchmark-Datensatz zur Identifizierung von Enhancern evaluiert, wobei es das bereits leistungsstärkste Framework um 5 % und 9 % in Bezug auf Genauigkeit und MCC übertrifft. Ähnlich, bei der Auswertung des Benchmark-Datensatz zur Vorhersage der Stärke von Enhancern übertrifft es das vorhandene leistungsstärkste Framework um 4 % und 7 % in Bezug auf Genauigkeit und MCC.
Mehmood et al. (Mon,) untersuchten diese Frage.