في مؤتمر WWDC 2024، يمكن للذكاء الاصطناعي أن يجعل Siri هو المساعد الصوتي الذي طالما أرادته Apple
عندما أطلقت شركة Apple Siri لأول مرة في عام 2011 إلى جانب iPhone 4S، قدمت الشركة سلسلة من الإعلانات الجذابة للغاية التي توضح كيف يمكنك استخدام هذا المساعد الصوتي الجديد. في إحداها، تسأل زوي ديشانيل هاتفها عن توصيل حساء الطماطم؛ وفي مقطع آخر، يطلب جون مالكوفيتش بعض النصائح الحياتية الوجودية. هناك أيضًا واحدة حيث يقوم مارتن سكورسيزي بتعديل جدول أعماله من الجزء الخلفي من سيارة أجرة في مدينة نيويورك. لقد أظهروا التذكيرات والطقس والإنذارات والمزيد. كان الهدف من الإعلانات هو أن Siri كان رفيقًا دائمًا ومفيدًا، يمكنه التعامل مع كل ما تحتاجه. لا توجد تطبيقات أو نقرات ضرورية. فقط إسأل.
لقد كان سيري بمثابة صفقة كبيرة لشركة أبل. وفي حفل إطلاق جهاز 4S، قال فيل شيلر من شركة أبل إن سيري هي أفضل ميزة في الجهاز الجديد. وقال: “على مدى عقود، ظل علماء التكنولوجيا يضايقوننا بهذا الحلم الذي مفاده أننا سنكون قادرين على التحدث إلى التكنولوجيا وأنها ستفعل أشياء لنا”. “لكن هذا لا يتحقق أبدًا!” وقال إن كل ما نريد فعله حقًا هو التحدث إلى أجهزتنا بالطريقة التي نريدها والحصول على المعلومات والمساعدة. وفي لحظة من التبجح الكلاسيكي لشركة أبل، أعلن شيلر أن شركة أبل قد حلت المشكلة.
أبل لم تحلها. خلال 13 عامًا منذ الإطلاق الأولي، أصبح Siri، بالنسبة لمعظم الناس، إما وسيلة لضبط المؤقتات أو ميزة غير مجدية يجب تجنبها بأي ثمن. لقد كان Siri سيئًا لفترة طويلة، لفترة طويلة بما يكفي بحيث بدا لسنوات أن شركة Apple إما نسيته أو اختارت ببساطة التظاهر بأنه غير موجود.
ولكن في الأسبوع المقبل في مؤتمر WWDC، إذا كانت الشائعات والتقارير صحيحة، فقد نكون على وشك مقابلة Siri الحقيقي للمرة الأولى – أو على الأقل شيء أقرب إليه كثيرًا. وفق بلومبرج, اوقات نيويوركوغيرها، ستكشف شركة Apple عن إصلاح شامل للمساعد، مما يجعل Siri أكثر موثوقية بفضل نماذج اللغات الكبيرة ولكن بدون الكثير من الوظائف الجديدة. وحتى هذا سيكون الفوز. ولكن يبدو أن شركة آبل تعمل أيضًا على إصدار من Siri، وربما تكون جاهزة تقريبًا لإطلاقه، والذي سيتم دمجه فعليًا داخل التطبيقات، مما يعني أن المساعد يمكنه اتخاذ إجراء على جهازك نيابة عنك. من الناحية النظرية، على الأقل، أي شيء يمكنك القيام به على هاتفك، قد يتمكن Siri قريبًا من القيام به نيابةً عنك.
من الواضح أن هذه كانت رؤية سيري طوال الوقت. يمكنك حتى أن ترى ذلك في إعلانات iPhone 4S التجارية: هؤلاء المشاهير يطلبون المساعدة من Siri، ولا ينهي Siri المهمة أبدًا. تزود ديشانيل بقائمة من المطاعم التي تذكر خدمة التوصيل ولكنها لا تعرض عليها طلب أي شيء أو إظهار القائمة لها. يخبر سكورسيزي أن هناك حركة مرور لكنه لا يعيد توجيهه – ألا ينبغي أن يعرف بالفعل أنه سيتأخر عن اجتماعه؟ تطلب سيري من مالكوفيتش أن يكون لطيفًا مع الناس وأن يقرأ كتابًا جيدًا لكنه لا يقدم أي مساعدة عملية. حتى الآن، يشبه استخدام Siri وجود مساعد افتراضي وظيفته الوحيدة هي توفير أشياء لك على Google. وهو شيء! ولكن ليس كثيرا.
لقد كانت عجز سيري أكثر إحباطًا لأن كل ما يحتاجه ليكون مفيدًا هناك على هاتفك. عندما أريد بيتزا، لماذا لا يستطيع Siri التحقق من بريدي الإلكتروني للحصول على الإيصال من آخر مرة قمت فيها بالطلب، وفتح DoorDash، وإدخال نفس الطلب، والدفع باستخدام إحدى البطاقات الموجودة في Apple Wallet الخاصة بي، والانتهاء من ذلك؟ إذا كان لدي يوم مزدحم بمستوى سكورسيزي، فيبدو أن Siri موجود بجوار جميع جهات الاتصال الخاصة بي، وSlack، والبريد الإلكتروني الخاص بي، وكل شيء آخر يحتاج إليه لنقل الأشياء بسرعة نيابة عني. إذا تمكن Siri من السيطرة على هاتفي مثل إحدى أدوات الوصول عن بعد التي تسمح لشخص آخر بتحريك مؤشر جهاز الكمبيوتر الخاص بك، فلن يكون من الممكن إيقافه.
هناك حقًا سببان وراء عدم وصول Siri إلى مستوى إمكاناته بهذه الطريقة. الأول هو الأمر البسيط: التكنولوجيا الأساسية لم تكن جيدة بما فيه الكفاية. إذا كنت قد استخدمت Siri، فأنت تعرف عدد المرات التي يخطئ فيها في قراءة الأسماء، ويسيء فهم الأوامر، ويعود إلى عبارة “إليك بعض الأشياء التي وجدتها على الويب” عندما يكون كل ما تريده هو تشغيل ملف بودكاست. هذا هو المكان الذي تكون فيه نماذج اللغة الكبيرة مثيرة للغاية بشكل لا لبس فيه لأننا رأينا مدى جودة أدوات تحويل الكلام إلى نص مثل Whisper ومدى قدرة هذه النماذج على فهم اللغة على نطاق أوسع. إنها ليست مثالية، ولكنها تمثل تحسنًا كبيرًا عما كان لدينا من قبل – وهذا هو السبب وراء قيام أمازون أيضًا بتحويل Alexa إلى LLMs وتجاوز Gemini مساعد Google.
السبب الثاني لعدم عمل Siri بشكل كامل هو ببساطة أنه لم تتمكن شركة Apple ولا مطورو الطرف الثالث من اكتشاف كيفية عمل ذلك يجب عمل. كيف من المفترض أن تعرف ما يمكن أن يفعله سيري أو كيف تسأل؟ كيف يفترض بالمطورين دمج سيري؟ حتى الآن، إذا كنت تريد إضافة مهمة إلى تطبيق قائمة المهام، فلن يتمكن Siri من معرفة التطبيق الذي تستخدمه فحسب. يجب ان تقول، مرحبًا سيري، ذكّرني بسقي العشب في تودويست، وهي جملة غريبة لا معنى لها، وفي تجربتي، تفشل نصف الوقت على أي حال. إذا كنت تريد القيام بإجراء متعدد الخطوات، فإن خيارك الوحيد هو التجول في الاختصارات، وهي أداة قوية جدًا ولكنها لا تتطلب منك كتابة التعليمات البرمجية. إنه كثير جدًا بالنسبة لمعظم الناس.
قد يمنح الذكاء الاصطناعي أيضًا شركة Apple فرصة لإنهاء المشكلة برمتها. ونشر باحثوها بحثًا في وقت سابق من هذا العام يشرح بالتفصيل نظامًا يسمى Ferret-UI، والذي يستخدم نموذج الذكاء الاصطناعي لفهم التفاصيل الصغيرة للصورة التي تظهر على الشاشة. حتى أن الباحثين قدموا تفاصيل حول كيفية عمل التطبيق الشامل الذي يستخدم Siri: يقوم GPT-4 من OpenAI بعمل جيد في فهم ماهية الصورة على نطاق واسع، ومن ثم يصبح Ferret قادرًا على فهم المناطق والتفاصيل الصغيرة. من الناحية العملية، قد يعني ذلك أن أحد الأنظمة يقول: “هذا هو تطبيق Ticketmaster!” والآخر يقول: “هذا هو زر الشراء”.
يجب أن نكون متشككين بشأن أي ادعاءات تقدمها شركة Apple لـ Siri. منذ أكثر من عقد من الزمن، وقف شيلر على خشبة المسرح وأعلن أن شركة آبل قد قامت ببناء مساعد صوتي أفضل، ولكن الأمر لم يحدث. قد يكون الأمر نفسه صحيحًا الآن، حيث يستمر الضجيج حول الذكاء الاصطناعي في التحرك بشكل أسرع بكثير من التكنولوجيا الفعلية. تعمل كل من Humane وRabbit وGoogle وآخرون على أفكار مماثلة – كلمة “agent” هي الكلمة الطنانة في الصيف في عالم الذكاء الاصطناعي – ولم يثبت أحد أنه جاهز بعد.
ولكن إذا تمكنت شركة Apple من حل شيء ما هنا، فقد تكون هذه هي المرة الأولى التي نتمكن فيها من رؤية Siri الحقيقي – Siri الذي وعدنا به طوال تلك السنوات الماضية. ربما في الإعلان التجاري القادم، سيظهر حساء الطماطم الخاص بدشانيل بطريقة سحرية في منزلها، وسيعمل تطبيق Headspace ليجلب لمالكوفيتش بعض السلام الداخلي. ربما، أخيرًا، سنحصل على Siri Apple الذي طالما أرادت Apple صنعه.