تريد Waymo استخدام Gemini من Google لتدريب الروبوتات الخاصة بها

لطالما روجت Waymo لعلاقاتها مع DeepMind من Google وعقود من أبحاث الذكاء الاصطناعي باعتبارها ميزة استراتيجية على منافسيها في مجال القيادة الذاتية. الآن، تخطو الشركة المملوكة لشركة Alphabet خطوة أخرى إلى الأمام من خلال تطوير نموذج تدريب جديد لروبوتاكسي الخاص بها المبني على نموذج اللغة الكبيرة متعدد الوسائط (MLLM) Gemini من Google.

أصدرت Waymo اليوم ورقة بحثية جديدة تقدم “نموذج متعدد الوسائط شامل للقيادة الذاتية”، المعروف أيضًا باسم EMMA. يقوم نموذج التدريب الجديد الشامل هذا بمعالجة بيانات أجهزة الاستشعار لإنشاء “مسارات مستقبلية للمركبات ذاتية القيادة”، مما يساعد مركبات Waymo ذاتية القيادة على اتخاذ القرارات بشأن المكان الذي تتجه إليه وكيفية تجنب العقبات.

ولكن الأهم من ذلك، أن هذه إحدى المؤشرات الأولى على أن الشركة الرائدة في مجال القيادة الذاتية لديها تصميمات لاستخدام MLLMs في عملياتها. وهذه علامة على أن حاملي شهادة الماجستير في القانون يمكنهم التحرر من استخدامهم الحالي كروبوتات الدردشة، ومنظمي البريد الإلكتروني، ومولدات الصور، والعثور على التطبيق في بيئة جديدة تمامًا على الطريق. تقترح Waymo في ورقتها البحثية “تطوير نظام قيادة ذاتي يكون فيه MLLM مواطنًا من الدرجة الأولى”.

نموذج متعدد الوسائط شامل للقيادة الذاتية، والمعروف أيضًا باسم EMMA

توضح الورقة كيف قامت أنظمة القيادة الذاتية، تاريخيًا، بتطوير “وحدات” محددة لمختلف الوظائف، بما في ذلك الإدراك ورسم الخرائط والتنبؤ والتخطيط. لقد أثبت هذا النهج فائدته لسنوات عديدة ولكنه يواجه مشاكل في التوسع “بسبب الأخطاء المتراكمة بين الوحدات ومحدودية الاتصال بين الوحدات”. علاوة على ذلك، قد تواجه هذه الوحدات صعوبة في الاستجابة “للبيئات الجديدة” لأنها بطبيعتها “محددة مسبقًا”، مما قد يجعل من الصعب التكيف معها.

يقول Waymo أن MLLMs مثل Gemini يقدمون حلاً مثيرًا للاهتمام لبعض هذه التحديات لسببين: الدردشة عبارة عن “عامة” مدربة على مجموعات واسعة من البيانات المستخرجة من الإنترنت “والتي توفر” معرفة عالمية “ثرية تتجاوز ما هو متضمن في القواسم المشتركة سجلات القيادة”؛ وهم يظهرون قدرات تفكير “متفوقة” من خلال تقنيات مثل “الاستدلال المتسلسل للأفكار”، والذي يحاكي المنطق البشري من خلال تقسيم المهام المعقدة إلى سلسلة من الخطوات المنطقية.

نموذج Waymo’s EMMA.

لقطة الشاشة: وايمو

قامت Waymo بتطوير EMMA كأداة لمساعدة روبوتاتها على التنقل في البيئات المعقدة. وحددت الشركة العديد من المواقف التي ساعد فيها النموذج سياراتها ذاتية القيادة في العثور على الطريق الصحيح، بما في ذلك مواجهة حيوانات مختلفة أو أعمال بناء على الطريق.

وتحدثت شركات أخرى، مثل تيسلا، بشكل مكثف عن تطوير نماذج شاملة لسياراتها ذاتية القيادة. يدعي Elon Musk أن أحدث إصدار من نظام القيادة الذاتية الكاملة (12.5.5) يستخدم نظام الذكاء الاصطناعي “الشبكات العصبية الشاملة” الذي يترجم صور الكاميرا إلى قرارات القيادة.

وهذا مؤشر واضح على أن Waymo، التي تتفوق على Tesla في نشر مركبات حقيقية بدون سائق على الطريق، مهتمة أيضًا بمتابعة نظام متكامل. وقالت الشركة إن نموذج EMMA الخاص بها تفوق في التنبؤ بالمسار واكتشاف الأشياء وفهم الرسم البياني للطريق.

وقالت الشركة في منشور على مدونة اليوم: “يشير هذا إلى طريق واعد للأبحاث المستقبلية، حيث يمكن دمج المزيد من مهام القيادة الذاتية الأساسية في إعداد مماثل وموسع”.

لكن EMMA أيضًا له حدوده، وتعترف Waymo بأنه ستكون هناك حاجة إلى إجراء أبحاث مستقبلية قبل وضع النموذج موضع التنفيذ. على سبيل المثال، لم تتمكن EMMA من دمج مدخلات أجهزة الاستشعار ثلاثية الأبعاد من أجهزة الاستشعار أو الرادار، والتي قال Waymo إنها “باهظة الثمن من الناحية الحسابية”. ويمكنه معالجة كمية صغيرة فقط من إطارات الصور في المرة الواحدة.

هناك أيضًا مخاطر لاستخدام MLLMs لتدريب الروبوتات التي لم يتم ذكرها في ورقة البحث. غالبًا ما تهلوس Chatbots مثل Gemini أو تفشل في مهام بسيطة مثل قراءة الساعات أو عد الأشياء. لدى Waymo هامش ضئيل جدًا للخطأ عندما تسير مركباتها ذاتية القيادة بسرعة 40 ميلاً في الساعة على طريق مزدحم. ستكون هناك حاجة إلى مزيد من البحث قبل أن يتم نشر هذه النماذج على نطاق واسع، وWaymo واضحة في هذا الشأن.

وكتب فريق البحث في الشركة: “نأمل أن تلهم نتائجنا المزيد من الأبحاث للتخفيف من هذه المشكلات، ومواصلة تطوير أحدث ما توصلت إليه هندسة نماذج القيادة الذاتية”.