What question did this study set out to answer?

The research aims to optimize deep learning architectures for predicting the protein-to-mRNA ratio (PTR-Ratio) in human tissues.

January 22, 2026Open Access

Benchmarking and optimizing deep learning architectures for protein-to-mRNA ratio prediction

Key Points

The research aims to optimize deep learning architectures for predicting the protein-to-mRNA ratio (PTR-Ratio) in human tissues.
Evaluated nine deep learning architectures and simple baselines for classification tasks.
Used a dataset of 11,000 mRNA sequences with a 70/15/15 training, validation, and testing split.
Model performance assessed using the area under the Receiver-Operating-Characteristic curve (AUC).
Introduced PTRnet, an enhanced CNN-based architecture integrating secondary structure information and domain-specific training strategies.
The best-performing multilayer perceptron achieved a test AUC of 72.2%, surpassing random forest and more complex models.
RiboNN achieved a test AUC of 69.1%, while PTRnet reached 68.6% and showed early signs of overfitting.
The study suggests that codon frequencies capture most necessary information for distinguishing protein expression levels.

Abstract

In der Entwicklung von Gentherapien und mRNA-basierten Impfstoffen ist die gezielte Optimierung von mRNA-Sequenzen zur Steigerung der Proteinsynthese in menschlichen Zellen von zentraler Bedeutung. In diesem Kontext dient das Verhältnis von Protein zu mRNA (PTR-Ratio) als nützlicher Proxy zur Abschätzung der Translationseffizienz. Die vorliegende Masterarbeit untersucht systematisch die Leistungsfähigkeit von neun modernen Deep-Learning-Architekturen sowie einfachen Baselines bei der Klassifikation, ob eine gegebene mRNA-Sequenz in 29 verschiedenen menschlichen Geweben zu einer niedrigen oder hohen PTR-Ratio führt. Alle Modelle wurden auf einem Datensatz von 11.000 mRNA-Sequenzen mit einem 70/15/15-Split für Training, Validierung und Test trainiert bzw. evaluiert. Die Modellleistung wird anhand der Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC) bewertet. Aufbauend auf dem leistungsstärksten Backbone-Modell wird PTRnet eingeführt, eine erweiterte Version der CNN-basierten RiboNN-Architektur. PTRnet integriert zusätzlich Informationen über die Sekundärstruktur der mRNA, domänenspezifische Trainingsstrategien sowie Unsupervised Pretraining. Während mehrere sequenzbasierte Modelle eine gewisse Generalisierungsfähigkeit zeigen - etwa RiboNN mit einer Test-AUC von 69,1% und PTRnet mit 68,6% - ist ihre Qualität durch frühes Overfitting im Trainingsprozess limitiert. Ein einfaches Multilayer-Perceptron (MLP), das lediglich auf Codonhäufigkeiten basiert, erreicht allerdings eine deutlich höhere Test-AUC von 72,2% und übertrifft damit sowohl die Random-Forest-Baseline (66,8%) als auch das komplexere, pretrained PTRnet. Diese Ergebnisse deuten darauf hin, dass die untersuchten Deep-Learning-Modelle Schwierigkeiten haben, subtilere Muster zu erfassen, die über die in den Codonfrequenzen enthaltenen Informationen hinausgehen. Letztere enthalten offenbar bereits den Großteil der Information, die zur Unterscheidung zwischen niedriger und hoher Proteinexpression erforderlich ist.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Felix Elias Krause (Wed,) studied this question.

synapsesocial.com/papers/6971bd4c642b1836717e205e https://doi.org/https://doi.org/10.25365/thesis.80047

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper