在这个项目中,我们提出了一种基于深度神经网络(DNN)的生物物理模型,该模型使用多尺度和统一的拓扑及静电特征来预测蛋白质性质,例如库仑能或溶剂化能。拓扑特征通过对重原子或碳原子进行元素特异性的持久同源性(ESPH)生成。静电特征使用一种新颖的笛卡尔树代码生成,该代码增加了潜在的静电相互作用,以进一步改善模型预测。这些特征在不同大小的蛋白质中数量统一,因此可以利用广泛可用的蛋白质结构数据库来训练网络。这些特征也是多尺度的,允许用户在分辨率和计算成本之间达到平衡。训练于超过17,000个蛋白质的最佳模型在预测库仑能时的均方误差(MSE)约为0.024,平均绝对百分比误差(MAPE)为0.073,决定系数(R²)为0.976。同时,训练于超过4000个蛋白质的最佳模型在预测溶剂化能时的MSE约为0.064,MAPE为0.081,R²为0.926,显示出这些特征在表征蛋白质结构和力场方面的效率和准确性。特征生成算法还有潜力作为通用工具,帮助基于机器学习的蛋白质性质和功能预测。
Sliheet等(Mon,)研究了这个问题。