May 23, 2024Open Access

部分的に既知の意味を持つ環境における報酬マシンとポリシーの共同学習

Key Points

Key points are not available for this paper at this time.

Abstract

報酬マシンによって符号化されたタスクに対する強化学習の問題を研究します。このタスクは、環境内の一連の特性に基づいて定義され、原子命題と呼ばれ、ブール変数で表現されます。文献で一般に用いられる非現実的な仮定の1つは、これらの命題の真理値が正確に知られているというものです。しかし、実際の状況では、これらの真理値は不確かであり、センサーの不完全性が影響します。同時に、報酬マシンは明示的にモデル化するのが難しい場合があり、特に複雑なタスクを符号化する場合にはそうです。私たちは、命題の真理値の不確かさにもかかわらず、潜在的なタスクを符号化する報酬マシンを推測し、その実行方法を学習する強化学習アルゴリズムを開発します。この不確かさに対処するために、アルゴリズムは原子命題の真理値に関する確率的な推定を維持します。これは環境の探索から得られる新しいセンサ測定に基づいて更新されます。さらに、アルゴリズムは、学習すべきタスクを符号化する報酬マシンの推定として機能する仮説報酬マシンを維持します。エージェントが環境を探索する際、アルゴリズムは得られた報酬と原子命題の真理値の推定に従って仮説報酬マシンを更新します。最後に、アルゴリズムは、タスクを達成する最適なポリシーを決定するために仮説報酬マシンの状態に対してQ学習手法を使用します。私たちは、アルゴリズムが報酬マシンを成功裏に推測し、それぞれのタスクを達成するポリシーを漸近的に学習することを証明します。

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Verginis et al. (Thu,) はこの問題を研究しました。

synapsesocial.com/papers/68e68bf8b6db643587613b5f https://doi.org/https://doi.org/10.1016/j.artint.2024.104146

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper