Los puntos clave no están disponibles para este artículo en este momento.
El aumento exponencial de la actividad en línea ha incrementado la posibilidad de intentos de phishing, lo que puede comprometer gravemente datos sensibles y poner en riesgo a empresas e individuos. Este estudio utiliza enfoques de vanguardia en aprendizaje automático y aprendizaje profundo para abordar la urgente necesidad de identificar sitios web de phishing de manera eficiente. La investigación propuesta utiliza dos conjuntos de datos extensos con 30 y 87 características, respectivamente, que han sido extraídas de diversos tráficos de red, contenido de sitios y URLs para medir ampliamente el rendimiento de clasificación binaria y la precisión de 5 diferentes modelos de aprendizaje automático, así como 3 modelos basados en aprendizaje profundo. Además, esta investigación empleó una de las técnicas de selección de características más populares, la correlación de Pearson, para reducir el número de variables de entrada, minimizando la cantidad de características redundantes o irrelevantes en los conjuntos de datos. Entrenar nuestros modelos de aprendizaje automático y aprendizaje profundo con el subconjunto de características mayormente libre de redundancias resultante fue muy eficiente y, con la adición de ajustes de hiperparámetros y validación cruzada de 10 pliegues, nuestros modelos produjeron algunos de los resultados de predicción más precisos en la detección de phishing web. Entre todas las pruebas, el algoritmo de Random Forest tuvo un mejor desempeño en el conjunto de datos de tamaño limitado y obtuvo una precisión de predicción del 97.83%. En el conjunto de datos más grande, eXtreme Gradient Boosting tuvo un desempeño ligeramente mejor y alcanzó una precisión de predicción del 97.02%.
Ahmad et al. (Vie,) estudiaron esta cuestión.