Super Mario Bros.. تكشف نقاط ضعف الذكاء الاصطناعى
لطالما استخدمت الألعاب لاختبار قدرات الذكاء الاصطناعي، ولكن يبدو أن Super Mario Bros. أصبح الآن معيارًا جديدًا أكثر تعقيدًا من Pokémon! في دراسة حديثة أجراها مختبر Hao AI Lab بجامعة كاليفورنيا سان دييغو، تم وضع نماذج الذكاء الاصطناعي الرائدة في مواجهة مباشرة مع لعبة Super Mario Bros.، وكانت النتائج مفاجئة.
نتائج الاختبار: Claude يتفوق وGPT-4o يعاني
تم تشغيل اللعبة في محاكي خاص مدمج مع إطار عمل GamingAgent، والذي منح الذكاء الاصطناعي القدرة على التحكم بشخصية ماريو عبر أوامر برمجية. تم تزويد النماذج بتعليمات أساسية مثل “إذا كان هناك عقبة أو عدو قريب، اقفز أو تحرك لليسار لتفاديه”، إلى جانب لقطات من اللعبة لمساعدتها في اتخاذ القرارات.
أفضل أداء جاء من نموذج Claude 3.7 من Anthropic، يليه Claude 3.5، بينما عانى كل من Google Gemini 1.5 Pro و OpenAI GPT-4o في مجاراة التحدي. المفاجأة كانت أن النماذج التي تعتمد على التفكير المنطقي المتسلسل (reasoning models) مثل GPT-4o كان أداؤها أسوأ من النماذج الأخرى، رغم تفوقها في اختبارات الذكاء الاصطناعي التقليدية.
لماذا يواجه الذكاء الاصطناعي صعوبة في الألعاب؟
وفقًا للباحثين، فإن السبب الرئيسي وراء ضعف أداء نماذج “التفكير المنطقي” هو أنها تستغرق وقتًا طويلاً في اتخاذ القرار. في الألعاب مثل Super Mario Bros.، الوقت هو كل شيء—تأخير لثانية واحدة قد يكون الفرق بين القفز بنجاح أو السقوط في الهاوية!
هل الألعاب معيار حقيقي لتقييم الذكاء الاصطناعي؟
لطالما استخدمت الألعاب لاختبار الذكاء الاصطناعي، ولكن هناك تساؤلات حول مدى دقة هذه الاختبارات. فالألعاب بيئات محدودة ومجردة مقارنة بالعالم الحقيقي، وتوفر كميات هائلة من البيانات للتدريب، مما قد لا يعكس التحديات الحقيقية التي يواجهها الذكاء الاصطناعي في المواقف الواقعية.
حتى أندريه كارباتي، الباحث في OpenAI، وصف هذه الاختبارات بأنها “أزمة تقييم”، قائلًا في منشور على منصة X:“لا أعرف حقًا ما هي المقاييس التي يجب التركيز عليها حاليًا… لا أعرف مدى قوة هذه النماذج فعلًا!”لكن على الأقل، يمكننا الآن مشاهدة الذكاء الاصطناعي يلعب Mario!