Key points are not available for this paper at this time.
Cet article présente le calcul de chemins réalisables pour les robots mobiles dans des environnements connus et inconnus en utilisant un algorithme d'apprentissage QAPF. L'apprentissage Q est un algorithme d'apprentissage par renforcement qui a gagné en popularité dans la planification des trajets de robots mobiles ces dernières années, en raison de sa capacité d'auto-apprentissage sans nécessiter de modèle a priori de l'environnement. Cependant, l'apprentissage Q montre une convergence lente vers la solution optimale, malgré cet avantage. Pour remédier à cette limitation, le concept d'apprentissage Q partiellement guidé est employé, où la méthode de champ potentiel artificiel (APF) est utilisée pour améliorer l'approche classique de l'apprentissage Q. Par conséquent, l'algorithme d'apprentissage QAPF proposé pour la planification des trajets peut améliorer la vitesse d'apprentissage et la performance finale en utilisant la combinaison de l'apprentissage Q et de la méthode APF. Les critères utilisés pour mesurer l'efficacité de la planification incluent la longueur du chemin, la douceur du chemin et le temps d'apprentissage. Des expériences montrent que l'algorithme QAPF atteint avec succès de meilleures valeurs d'apprentissage qui surpassent l'approche classique de l'apprentissage Q dans tous les environnements de test présentés en termes des critères mentionnés ci-dessus dans les modes de planification de trajectoire hors ligne et en ligne. L'algorithme d'apprentissage QAPF a atteint une amélioration de 18,83 % en longueur de chemin pour le mode en ligne, une amélioration de 169,75 % en douceur de chemin pour le mode hors ligne, et une amélioration de 74,84 % en temps de formation par rapport à l'approche classique.
Orozco-Rosas et al. (Samedi,) ont étudié cette question.