عرابة الذكاء الاصطناعي تريد من الجميع أن يصبحوا منشئي العالم

وفقا لخبراء التكنولوجيا المهتمين بالسوق والمتشككين المحترفين، فقد انفجرت فقاعة الذكاء الاصطناعي، وعاد الشتاء. Fei-Fei Li لا يشتري ذلك. في الواقع، تراهن لي ــ التي اكتسبت لقب “عرابة الذكاء الاصطناعي” ــ على العكس من ذلك. إنها في إجازة بدوام جزئي من جامعة ستانفورد للمشاركة في تأسيس شركة تدعى World Labs. في حين أن الذكاء الاصطناعي التوليدي الحالي يعتمد على اللغة، فإنها ترى حدودًا حيث تقوم الأنظمة ببناء عوالم كاملة باستخدام الفيزياء والمنطق والتفاصيل الغنية لواقعنا المادي. إنه هدف طموح، وعلى الرغم من المزعجين الذين يقولون إن التقدم في الذكاء الاصطناعي قد وصل إلى مستوى قاتم، فإن World Labs تسير على المسار السريع للتمويل. ربما تكون الشركة الناشئة على بعد عام من الحصول على المنتج – وليس من الواضح على الإطلاق مدى نجاحه ومتى وإذا وصل – لكن المستثمرين قدموا 230 مليون دولار ويقال إنهم يقدرون الشركة الناشئة الناشئة بمليار دولار.

منذ ما يقرب من عقد من الزمان، ساعد لي الذكاء الاصطناعي على تجاوز المنعطف من خلال إنشاء ImageNet، وهي قاعدة بيانات مخصصة للصور الرقمية التي سمحت للشبكات العصبية بأن تصبح أكثر ذكاءً بشكل ملحوظ. إنها تشعر أن نماذج التعلم العميق الحالية تحتاج إلى دفعة مماثلة إذا أراد الذكاء الاصطناعي إنشاء عوالم فعلية، سواء كانت محاكاة واقعية أو أكوان متخيلة بالكامل. قد يقوم جورج آر آر مارتينز المستقبلي بتأليف عوالمهم التي يحلمون بها كمحفزات بدلاً من النثر، والتي قد تقوم بعد ذلك بتقديمها والتجول فيها. يقول لي: “إن العالم المادي لأجهزة الكمبيوتر يُرى من خلال الكاميرات، وعقل الكمبيوتر خلف الكاميرات”. “إن تحويل هذه الرؤية إلى تفكير وتوليد وتفاعل في نهاية المطاف ينطوي على فهم البنية المادية والديناميكيات الفيزيائية للعالم المادي. وهذه التكنولوجيا تسمى الذكاء المكاني. تطلق شركة World Labs على نفسها اسم شركة الاستخبارات المكانية، وسيساعد مصيرها في تحديد ما إذا كان هذا المصطلح سيتحول إلى ثورة أم إلى حد كبير.

لقد كان لي مهووسًا بالذكاء المكاني لسنوات. بينما كان الجميع منشغلين بـ ChatGPT، كانت هي وطالبها السابق، جاستن جونسون، يثرثرون بحماس في مكالمات هاتفية حول التكرار التالي للذكاء الاصطناعي. يقول جونسون، الذي يعمل الآن أستاذًا مساعدًا في جامعة ميشيغان: “سيكون العقد القادم يدور حول إنشاء محتوى جديد يأخذ رؤية الكمبيوتر، والتعلم العميق، والذكاء الاصطناعي من عالم الإنترنت، ويجعلها مدمجة في المكان والزمان”. .

قرر لي تأسيس شركة في وقت مبكر من عام 2023، بعد تناول العشاء مع مارتن كاسادو، رائد الشبكات الافتراضية والذي أصبح الآن شريكًا في شركة أندريسن هورويتز. هذه هي شركة رأس المال الاستثماري المشهورة باحتضانها شبه المسيحاني للذكاء الاصطناعي. ويرى كاسادو أن الذكاء الاصطناعي يسير على مسار مماثل لألعاب الكمبيوتر، التي بدأت بالنص، ثم انتقلت إلى الرسومات ثنائية الأبعاد، وأصبحت الآن تحتوي على صور مبهرة ثلاثية الأبعاد. الذكاء المكاني سوف يقود التغيير. في نهاية المطاف، يقول: “يمكنك أن تأخذ كتابك المفضل، وتضعه في نموذج، ثم تدخل فيه حرفيًا وتشاهده وهو يحدث في الوقت الفعلي، بطريقة غامرة”. واتفق كاسادو ولي على أن الخطوة الأولى لتحقيق ذلك هي الانتقال من نماذج اللغة الكبيرة إلى النماذج الكبيرة عالم نماذج.

بدأ لي في تجميع فريق، وكان جونسون أحد مؤسسيه. اقترح كاسادو شخصين آخرين، أحدهما كان كريستوف لاسنر، الذي كان يعمل في Amazon، وMeta’s Reality Labs، وEpic Games. وهو مخترع بولسار، وهو مخطط عرض أدى إلى تقنية مشهورة تسمى 3D Gaussian Splatting. يبدو ذلك مثل فرقة موسيقية مستقلة في حفلة توجا لمعهد ماساتشوستس للتكنولوجيا، ولكنها في الواقع طريقة لتجميع المشاهد، بدلاً من الأشياء التي يتم عرضها لمرة واحدة. كان اقتراح كاسادو الآخر هو بن ميلدنهال، الذي ابتكر تقنية قوية تسمى NeRF – حقول الإشعاع العصبي – التي تحول الصور ثنائية الأبعاد إلى رسومات ثلاثية الأبعاد. يقول: “لقد أخذنا أشياء من العالم الحقيقي إلى الواقع الافتراضي وجعلناها تبدو حقيقية تمامًا”. ترك منصبه كعالم أبحاث كبير في Google لينضم إلى فريق لي.

أحد الأهداف الواضحة لنموذج عالمي كبير هو إضفاء الحس العالمي على الروبوتات. وهذا بالفعل ضمن خطة World Labs، ولكن ليس لفترة من الوقت. المرحلة الأولى هي بناء نموذج يتمتع بفهم عميق للأبعاد الثلاثة، والمادية، ومفاهيم المكان والزمان. بعد ذلك ستأتي مرحلة تدعم فيها النماذج الواقع المعزز. بعد ذلك يمكن للشركة أن تتعامل مع الروبوتات. إذا تحققت هذه الرؤية، فإن النماذج العالمية الكبيرة ستعمل على تحسين السيارات ذاتية القيادة، والمصانع الآلية، وربما حتى الروبوتات البشرية.