يعد روبوت Google DeepMind الذي يعمل بنظام Chatbot جزءًا من ثورة أكبر

في مكتب مزدحم ذو مخطط مفتوح في ماونتن فيو، كاليفورنيا، كان الروبوت ذو العجلات الطويلة والنحيفة منشغلاً بدور المرشد السياحي ومساعد المكتب غير الرسمي – وذلك بفضل ترقية كبيرة لنموذج اللغة، حسبما كشفت Google DeepMind اليوم. يستخدم الروبوت أحدث إصدار من نموذج اللغة الكبير Gemini من Google لتحليل الأوامر وإيجاد طريقه.

على سبيل المثال، عندما يطلب منه الإنسان “ابحث عن مكان ما لأكتب فيه”، يتحرك الروبوت بإخلاص، ويقود الشخص إلى السبورة البيضاء الموجودة في مكان ما في المبنى.

إن قدرة جيميني على التعامل مع الفيديو والنص – بالإضافة إلى قدرته على استيعاب كميات كبيرة من المعلومات في شكل جولات فيديو مسجلة مسبقًا للمكتب – تسمح للروبوت “مساعد Google” بفهم بيئته والتنقل بشكل صحيح عند إعطاء الأوامر التي تتطلب بعض المنطق المنطقي. يجمع الروبوت بين جيميني وخوارزمية تولد إجراءات محددة ليقوم بها الروبوت، مثل الدوران، استجابة للأوامر وما يراه أمامه.

عندما تم تقديم جيميني في ديسمبر، قال ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، لمجلة WIRED إن قدراته متعددة الوسائط من المرجح أن تفتح قدرات روبوتية جديدة. وأضاف أن باحثي الشركة كانوا يعملون بجد لاختبار الإمكانات الروبوتية للنموذج.

في ورقة بحثية جديدة تلخص المشروع، يقول الباحثون القائمون على هذا العمل إن الروبوت الخاص بهم أثبت أنه موثوق بنسبة تصل إلى 90 بالمائة في التنقل، حتى عند إعطائه أوامر صعبة مثل “أين تركت السفينة الخاصة بي؟” وكتب الفريق أن نظام ديب مايند “حسّن بشكل كبير طبيعة التفاعل بين الإنسان والروبوت، وزاد بشكل كبير من سهولة استخدام الروبوت”.

بإذن من جوجل ديب مايند

صورة لموظف Google DeepMind وهو يتفاعل مع روبوت يعمل بالذكاء الاصطناعي.

يوضح العرض التوضيحي بدقة إمكانية وصول النماذج اللغوية الكبيرة إلى العالم المادي والقيام بعمل مفيد. تعمل Gemini وروبوتات الدردشة الأخرى في الغالب ضمن حدود متصفح الويب أو التطبيق، على الرغم من أنها قادرة بشكل متزايد على التعامل مع المدخلات المرئية والسمعية، كما أظهر كل من Google وOpenAI مؤخرًا. في شهر مايو، عرض هاسابيس نسخة مطورة من برنامج Gemini قادرة على فهم تخطيط المكتب كما يُرى من خلال كاميرا الهاتف الذكي.

تتسابق مختبرات الأبحاث الأكاديمية والصناعية لمعرفة كيفية استخدام النماذج اللغوية لتعزيز قدرات الروبوتات. يدرج برنامج شهر مايو للمؤتمر الدولي للروبوتات والأتمتة، وهو حدث شائع للباحثين في مجال الروبوتات، ما يقرب من عشرين ورقة بحثية تتضمن استخدام نماذج لغة الرؤية.

يضخ المستثمرون الأموال في الشركات الناشئة التي تهدف إلى تطبيق التقدم في الذكاء الاصطناعي على الروبوتات. منذ ذلك الحين، ترك العديد من الباحثين المشاركين في مشروع Google الشركة لتأسيس شركة ناشئة تسمى Physical Intelligence، والتي تلقت تمويلًا أوليًا قدره 70 مليون دولار؛ وهي تعمل على الجمع بين النماذج اللغوية الكبيرة والتدريب الواقعي لمنح الروبوتات قدرات عامة على حل المشكلات. لدى شركة Skild AI، التي أسسها علماء الروبوتات في جامعة كارنيجي ميلون، هدف مماثل. وأعلنت هذا الشهر عن تمويل بقيمة 300 مليون دولار.

قبل بضع سنوات فقط، كان الروبوت يحتاج إلى خريطة لبيئته وأوامر مختارة بعناية للتنقل بنجاح. تحتوي نماذج اللغة الكبيرة على معلومات مفيدة حول العالم المادي، ويمكن للإصدارات الأحدث التي يتم تدريبها على الصور والفيديو بالإضافة إلى النص، والمعروفة باسم نماذج لغة الرؤية، الإجابة على الأسئلة التي تتطلب الإدراك. يسمح برنامج Gemini لروبوت Google بتحليل التعليمات المرئية بالإضافة إلى التعليمات المنطوقة، باتباع رسم تخطيطي على السبورة البيضاء يوضح الطريق إلى وجهة جديدة.

ويقول الباحثون في ورقتهم إنهم يخططون لاختبار النظام على أنواع مختلفة من الروبوتات. ويضيفون أن برج الجوزاء يجب أن يكون قادرًا على فهم الأسئلة الأكثر تعقيدًا، مثل “هل يتناولون مشروبي المفضل اليوم؟” من مستخدم لديه الكثير من علب الكولا الفارغة على مكتبه.