June 12, 2024Open Access

適応ロボットアーム制御のための深層強化学習の最適化

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、七自由度（DOF）を持つロボットアーム制御の文脈において、Soft Actor-Critic（SAC）およびProximal Policy Optimization（PPO）アルゴリズムのハイパーパラメータの最適化をTree-structured Parzen Estimator（TPE）を用いて探求します。結果として、TPEはSACの成功率を10.48パーセントポイント、PPOを34.28パーセントポイント向上させることが示され、モデルは50Kエピソードでトレーニングされました。さらに、TPEを用いることでPPOは最大報酬の95％内に76％早く報酬に収束し、最適なパフォーマンスのために約40Kエピソード少ないトレーニングが必要です。また、SACへのこの改善はTPEを使用しない場合よりも80％早くなります。この研究は、複雑なロボットタスクにおける深層強化学習アルゴリズムの効率と成功に対する高度なハイパーパラメータ最適化の影響を強調しています。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper