Los puntos clave no están disponibles para este artículo en este momento.
Este documento tiene como objetivo clasificar URLs y páginas web en sitios legítimos y maliciosos para alertar a los usuarios y permitir una navegación más segura a través de internet. A través de este proceso, hemos encontrado varios puntos de interés y atributos que hacen evidente las características de estas fuentes maliciosas, permitiéndonos estar al tanto y prevenir cualquier daño que puedan causar. Estos atributos se relacionan con el registro del dominio de las URLs, el texto de la URL, la estructura de la página web y su contenido. La aplicación de modelos como BERT, LSTM, árboles de decisión y su amalgama como un conjunto resulta en una solución pragmática al problema en forma de un conjunto que proporciona una precisión del 95.3%. También utiliza conceptos como la reputación de la página web, enlaces internos y enlaces externos de una página web. El método de clasificación utilizado en este documento, donde se han combinado técnicas de procesamiento de lenguaje natural y modelos de aprendizaje automático con una gran variedad de características, no se ha implementado anteriormente. Concluimos el documento sugiriendo métodos de mejora para resolver el problema.
Venugopal et al. (Wed,) estudiaron esta cuestión.