Key points are not available for this paper at this time.
我々は、デジタルエージェントがウェブブラウザを操作し、ユーザーの指示に従ってマルチターンダイアログ形式で実世界のタスクを解決する対話型ウェブナビゲーションの問題を提案する。この問題をサポートするために、WEBLINXを紹介する。これは、対話型ウェブナビゲーションの2300件の専門家デモンストレーションにわたる100K回のインタラクションからなる大規模ベンチマークである。ベンチマークは150以上の実世界ウェブサイトにわたる多様なパターンを網羅し、さまざまなシナリオにおけるエージェントの訓練と評価に使用できる。情報量の多さから、大規模言語モデル(LLM)はリアルタイムでウェブページ全体を処理できない。このボトルネックを解消するため、我々は関連要素をランク付けしてHTMLページを効率的に絞り込む検索に着想を得たモデルを設計した。選択された要素とスクリーンショット、アクション履歴を用いて、人間のウェブナビゲーション行動の再現能力を様々なモデルで評価した。実験は小規模なテキストのみモデルから、プロプライエタリなマルチモーダルLLMまで幅広く行った。小規模にファインチューニングされたデコーダは、最高のゼロショットLLM(GPT-4Vを含む)やスクリーンショットで事前学習された大規模ファインチューニング型マルチモーダルモデルを上回った。しかし、すべてのファインチューニングモデルは未知のウェブサイトへの一般化が困難であった。我々の発見は、未知の環境に一般化可能な大規模マルチモーダルモデルの必要性を示している。我々のコード、データ、モデルは研究用に公開されている:https://mcgill-nlp.github.io/weblinx
Lù et al. (Thu,) はこの問題を研究しました。