Key points are not available for this paper at this time.
Récemment, les modèles de représentation linguistique ont suscité beaucoup d'attention dans le domaine du traitement du langage naturel en raison de leurs résultats remarquables. Parmi eux, les représentations d'encodeur bidirectionnelles des transformateurs (BERT) se sont révélées être un modèle linguistique simple, mais puissant, qui a atteint des performances de pointe novatrices. BERT a adopté le concept d'incorporation de mots contextualisés pour capturer la sémantique et le contexte des mots dans lesquels ils apparaissaient. Dans cette étude, nous présentons une technique novatrice en incorporant un modèle multilingue basé sur BERT en bioinformatique pour représenter les informations des séquences d'ADN. Nous avons traité les séquences d'ADN comme des phrases naturelles et avons ensuite utilisé les modèles BERT pour les transformer en matrices numériques de longueur fixe. En tant qu'étude de cas, nous avons appliqué notre méthode à la prédiction des amplificateurs d'ADN, qui est un problème bien connu et difficile dans ce domaine. Nous avons ensuite observé que nos caractéristiques basées sur BERT amélioraient de plus de 5 à 10 % en termes de sensibilité, spécificité, précision et coefficient de corrélation de Matthews par rapport aux caractéristiques actuelles de pointe en bioinformatique. De plus, des expériences avancées montrent que l'apprentissage profond (tel que représenté par les réseaux de neurones convolutionnels 2D ; CNN) a un potentiel dans l'apprentissage des caractéristiques BERT mieux que d'autres techniques d'apprentissage automatique traditionnelles. En conclusion, nous suggérons que BERT et les CNN 2D pourraient ouvrir une nouvelle avenue dans la modélisation biologique en utilisant des informations de séquence.
Le et al. (Mon,) ont étudié cette question.