एंबोडीड इंटेलिजेंस, जो कि आर्टिफिशियल इंटेलिजेंस के विकास का एक महत्वपूर्ण क्षेत्र है, डेटा की विषमता, कड़े भौतिक प्रतिबंधों और महंगा इंटरैक्शन जैसी चुनौतियों का सामना कर रहा है, जिससे बड़े भाषा मॉडलों के "बड़ी स्केल पर प्रीट्रेनिंग + स्केल लॉ" के पैरेडाइम को सीधे लागू करना कठिन हो जाता है। यह लेख डेटा, मॉडल, सिस्टम और मूल्यांकन के चार आयामों से एंबोडीड इंटेलिजेंस की अग्रणी तकनीकी प्रगति का व्यापक अवलोकन प्रस्तुत करता है। डेटा स्तर पर, लेख एक "डेटा पिरामिड" संरचना का प्रस्ताव करता है, जो विशाल सिमुलेशन और इंटरनेट वीडियो डेटा का उपयोग करके भौतिक सामान्य ज्ञान का निर्माण करने, मध्यम स्तर पर मानव इंटरैक्शन डेटा के माध्यम से व्यवहार मानचित्रण करने और अंत में शीर्ष स्तर पर सीमित असली मशीन डेटा के जरिए कौशल को लागू करने की वकालत करता है। मॉडल स्तर पर, यह प्रमुख विजुअल-लैंग्वेज-एक्शन (VLA) मॉडलों के विस्तार सीमाओं पर चर्चा करता है और "वर्ल्ड मॉडल" को एक नई दिशा के रूप में प्रस्तुत करता है, जो पर्यावरण की डायनेमिक्स का अनुकरण और भविष्य की पूर्वाभ्यास के द्वारा एजेंट को बेहतर भौतिक अंतर्ज्ञान और सामान्यीकरण क्षमता प्रदान कर सकता है। सिस्टम स्तर पर, देखा गया है कि आर्किटेक्चर एकल एंड-टू-एंड मॉडल से ऑपरेटिंग सिस्टम जैसी "स्तरीय संरचना" की ओर विकसित हो रहा है, जिससे उच्च स्तरीय सेमांटिक योजना और निचले स्तर के मोटर नियंत्रण का पृथक्करण संभव हो जाता है। अंत में, यह लेख वर्तमान मूल्यांकन प्रणाली की वास्तविकता और पुनरुत्पाद्यता से संबंधित चुनौतियों की समीक्षा करता है और चलने तथा संचालन के एकीकरण और एंबोडीड इंटेलिजेंस के "ImageNet क्षण" के आगमन की संभावनाओं पर प्रकाश डालता है।
Yao et al. (Thu,) ने इस प्रश्न का अध्ययन किया।