Key points are not available for this paper at this time.
在线活动的指数增长增加了网络钓鱼尝试的可能性,这可能严重危害敏感数据,并使公司和个人面临风险。本研究采用先进的机器学习和深度学习方法,以高效识别网络钓鱼网站的紧迫需求。所提议的研究利用从各种网络流量、网站内容和URL中提取的两个不同的大型数据集,分别具有30和87个特征,以广泛衡量5个不同机器学习模型以及3个基于深度学习模型的二元分类性能和准确性。此外,本研究采用了最流行的特征选择技术之一,即皮尔逊相关,来减少输入变量的数量,从而最小化数据集中的冗余或无关特征的数量。使用结果几乎没有冗余的特征子集来训练我们的机器学习和深度学习模型非常高效,并通过超参数调整和10折交叉验证,我们的模型在网络钓鱼检测中产生了一些最准确的预测结果。在所有测试中,随机森林算法在有限规模的数据集上表现更好,预测准确率为97.83%。在较大的数据集上,极限梯度增强算法稍微表现更好,达到了97.02%的预测准确率。
Ahmad等人(周五)研究了这个问题。