Key points are not available for this paper at this time.
Dans le domaine de l'apprentissage visuel des affordances, les méthodes précédentes utilisaient principalement des images ou vidéos abondantes qui délimitent les modèles de comportement humain pour identifier les régions de possibilité d'action pour la manipulation d'objets, avec une variété d'applications dans les tâches robotiques. Cependant, elles rencontrent un défi majeur d'ambiguïté d'action, illustré par l'incertitude comme de savoir s'il faut frapper ou porter un tambour, et les complexités impliquées dans le traitement de scènes complexes. De plus, il est important que l'intervention humaine rectifie les erreurs des robots à temps. Pour aborder ces problèmes, nous introduisons l'apprentissage d'affordance autoconscient (SEA) avec un sous-titre incarné. Cette innovation permet aux robots d'articuler leurs intentions et de combler le fossé entre le sous-titrage vision-langage explicable et l'apprentissage des affordances visuelles. En raison d'un manque de jeu de données approprié, nous dévoilons un jeu de données et des métriques pionniers adaptés à cette tâche, qui intègre des images, desHeatmaps, et des sous-titres incarnés. De plus, nous proposons un nouveau modèle pour combiner efficacement l'ancrage des affordances avec l'auto-explication de manière simple mais efficace. Des expériences quantitatives et qualitatives approfondies démontrent l'efficacité de notre méthode.
Zhang et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: