تشير أبحاث الذكاء الاصطناعي التي أجرتها Apple إلى أن هناك ميزات قادمة لـ Siri والفنانين والمزيد.


سيكون من السهل الاعتقاد بأن شركة Apple تأخرت في لعبة الذكاء الاصطناعي. منذ أواخر عام 2022، عندما اجتاحت ChatGPT العالم، اندفع معظم منافسي Apple إلى اللحاق بالركب. في حين أن شركة آبل تحدثت بالتأكيد عن الذكاء الاصطناعي، بل وأصدرت بعض المنتجات مع وضع الذكاء الاصطناعي في الاعتبار، إلا أنه يبدو أنها كانت تغمس إصبع قدمها بدلاً من الغوص في رأسها.

ولكن على مدى الأشهر القليلة الماضية، أشارت الشائعات والتقارير إلى أن شركة آبل، في الواقع، كانت تنتظر وقتها، في انتظار اتخاذ خطوتها. كانت هناك تقارير في الأسابيع الأخيرة تفيد بأن شركة آبل تتحدث مع كل من OpenAI وGoogle حول تشغيل بعض ميزات الذكاء الاصطناعي الخاصة بها، كما تعمل الشركة أيضًا على نموذج خاص بها يسمى Ajax.

إذا نظرت إلى أبحاث الذكاء الاصطناعي المنشورة من قبل شركة Apple، فستبدأ الصورة في التطور حول كيفية ظهور نهج Apple في الذكاء الاصطناعي على أرض الواقع. الآن، من الواضح أن وضع افتراضات المنتج بناءً على الأوراق البحثية هو علم غير دقيق إلى حد كبير – فالخط من البحث إلى أرفف المتاجر عاصف ومليء بالحفر. ولكن يمكنك على الأقل التعرف على ماهية الشركة التفكير حول – وكيف يمكن أن تعمل ميزات الذكاء الاصطناعي الخاصة بها عندما تبدأ شركة Apple في الحديث عنها في مؤتمرها السنوي للمطورين، WWDC، في يونيو.

نماذج أصغر وأكثر كفاءة

أظن أنني وأنت نأمل في نفس الشيء هنا: سيري أفضل. ويبدو أن Better Siri قادم إلى حد كبير! هناك افتراض في الكثير من أبحاث شركة Apple (وفي الكثير من صناعة التكنولوجيا والعالم وفي كل مكان) بأن النماذج اللغوية الكبيرة ستجعل المساعدين الافتراضيين أفضل وأكثر ذكاءً على الفور. بالنسبة لشركة Apple، فإن الوصول إلى Better Siri يعني جعل هذه النماذج في أسرع وقت ممكن – والتأكد من وجودها في كل مكان.

في نظام التشغيل iOS 18، تخطط Apple لتشغيل جميع ميزات الذكاء الاصطناعي الخاصة بها على نموذج موجود على الجهاز وغير متصل بالإنترنت بشكل كامل، بلومبرج حديثاً ذكرت. من الصعب بناء نموذج جيد متعدد الأغراض حتى عندما يكون لديك شبكة من مراكز البيانات والآلاف من وحدات معالجة الرسومات الحديثة – من الصعب جدًا القيام بذلك باستخدام الشجاعة الموجودة داخل هاتفك الذكي فقط. لذلك يتعين على شركة Apple أن تكون مبدعة.

في ورقة بحثية بعنوان “ماجستير في القانون في لمح البصر: استدلال نموذج لغة كبير فعال مع ذاكرة محدودة” (جميع هذه الأوراق لها عناوين مملة حقًا ولكنها مثيرة للاهتمام حقًا، أعدك بذلك!) ابتكر الباحثون نظامًا لتخزين بيانات النموذج، والذي عادةً ما يكون المخزنة على ذاكرة الوصول العشوائي بجهازك، على SSD بدلا من ذلك. “لقد أثبتنا القدرة على تشغيل LLMs بما يصل إلى ضعف حجم DRAM المتاح [on the SSD]”، كتب الباحثون، “تحقيق تسارع في سرعة الاستدلال بمقدار 4-5x مقارنة بطرق التحميل التقليدية في وحدة المعالجة المركزية، و20-25x في وحدة معالجة الرسومات.” ووجدوا أنه من خلال الاستفادة من مساحة التخزين الأقل تكلفة والمتاحة على جهازك، يمكن تشغيل النماذج بشكل أسرع وأكثر كفاءة.

أنشأ باحثو Apple أيضًا نظامًا يسمى EELBERT يمكنه بشكل أساسي ضغط LLM إلى حجم أصغر بكثير دون جعله أسوأ بشكل كبير. وكانت النسخة المضغوطة لنموذج بيرت من Google أصغر بـ 15 مرة — 1.2 ميجابايت فقط — وشهدت انخفاضًا في الجودة بنسبة 4 بالمائة فقط. ومع ذلك، فقد جاء ذلك مع بعض مقايضات زمن الوصول.

بشكل عام، تسعى شركة Apple إلى حل مشكلة التوتر الأساسية في عالم النماذج: كلما أصبح النموذج أكبر، كلما كان أفضل وأكثر فائدة، ولكنه أصبح أيضًا غير عملي، ومتعطشًا للطاقة، وبطيئًا. مثل الكثير من الشركات الأخرى، تحاول الشركة إيجاد التوازن الصحيح بين كل هذه الأشياء بينما تبحث أيضًا عن طريقة للحصول على كل ذلك.

سيري، ولكن جيدة

إن الكثير مما نتحدث عنه عندما نتحدث عن منتجات الذكاء الاصطناعي هو مساعدون افتراضيون – مساعدون يعرفون الأشياء، ويمكنهم تذكيرنا بالأشياء، ويمكنهم الإجابة على الأسئلة، وإنجاز الأمور نيابة عنا. لذلك ليس من المفاجئ أن الكثير من أبحاث الذكاء الاصطناعي التي تجريها شركة آبل تتلخص في سؤال واحد: ماذا لو كان سيري جيدًا حقًا؟

يعمل مجموعة من الباحثين في شركة آبل على طريقة لاستخدام سيري دون الحاجة إلى استخدام كلمة تنبيه على الإطلاق؛ فبدلاً من الاستماع إلى “Hey Siri” أو “Siri”، قد يتمكن الجهاز ببساطة من معرفة ما إذا كنت تتحدث إليه أم لا. واعترف الباحثون بأن “هذه المشكلة أكثر صعوبة بكثير من اكتشاف الزناد الصوتي، لأنه قد لا تكون هناك عبارة تحفيز رئيسية تشير إلى بداية الأمر الصوتي”. قد يكون هذا هو السبب وراء قيام مجموعة أخرى من الباحثين بتطوير نظام لاكتشاف كلمات التنبيه بشكل أكثر دقة. ودرب بحث آخر نموذجًا على فهم الكلمات النادرة بشكل أفضل، والتي غالبًا ما لا يفهمها المساعدون جيدًا.

في كلتا الحالتين، تكمن جاذبية شهادة LLM في قدرتها، من الناحية النظرية، على معالجة المزيد من المعلومات بسرعة أكبر. في الورقة البحثية، على سبيل المثال، وجد الباحثون أنه من خلال لا محاولة التخلص من كل الأصوات غير الضرورية، ولكن بدلاً من ذلك، تغذية النموذج بالكامل والسماح له بمعالجة ما يهم وما لا يهم، تعمل كلمة التنبيه بشكل أكثر موثوقية.

بمجرد أن يسمعك Siri، تقوم Apple بمجموعة من العمل للتأكد من أنها تفهمك وتتواصل بشكل أفضل. في إحدى الأوراق البحثية، طورت نظامًا يسمى STEER (والذي يرمز إلى التعرف على امتداد امتداد الدوران الدلالي، لذلك سنختار STEER) يهدف إلى تحسين تواصلك ذهابًا وإيابًا مع أحد المساعدين من خلال محاولة معرفة متى أنت تطرح سؤالاً للمتابعة وعندما تطرح سؤالاً جديدًا. وفي حالة أخرى، يستخدم LLMs لفهم “الاستعلامات الغامضة” بشكل أفضل لمعرفة ما تعنيه بغض النظر عن الطريقة التي تقوله بها. وكتبوا: «في ظروف غير مؤكدة، قد يحتاج القائمون على المحادثة الأذكياء إلى أخذ زمام المبادرة لتقليل عدم يقينهم من خلال طرح أسئلة جيدة بشكل استباقي، وبالتالي حل المشكلات بشكل أكثر فعالية». تهدف ورقة بحثية أخرى إلى المساعدة في ذلك أيضًا: استخدم الباحثون LLMs لجعل المساعدين أقل إسهابًا وأكثر قابلية للفهم عند توليد الإجابات.

قريبًا جدًا، قد تتمكن من تعديل صورك بمجرد طلب التغييرات.
الصورة: أبل

الذكاء الاصطناعي في مجال الصحة، ومحرري الصور، في Memojis الخاص بك

عندما تتحدث شركة آبل علنًا عن الذكاء الاصطناعي، فإنها تميل إلى التركيز بشكل أقل على القوة التكنولوجية الخام وأكثر على الأشياء اليومية التي يمكن للذكاء الاصطناعي أن يفعلها لك بالفعل. لذلك، في حين أن هناك الكثير من التركيز على Siri – خاصة وأن Apple تتطلع إلى التنافس مع أجهزة مثل Humane AI Pin، وRabbit R1، وتحطيم Google المستمر لـ Gemini في جميع أنظمة Android – إلا أن هناك الكثير من الطرق الأخرى التي يبدو أن Apple تراها الذكاء الاصطناعي مفيد.

أحد المجالات الواضحة التي يجب أن تركز عليها شركة Apple هو الصحة: ​​يمكن أن تساعد شهادات LLM، من الناحية النظرية، في الخوض في محيطات البيانات البيومترية التي تجمعها أجهزتك المختلفة وتساعدك على فهم كل شيء. لذلك، كانت شركة Apple تبحث في كيفية جمع وتصنيف كل بيانات الحركة الخاصة بك، وكيفية استخدام ميزة التعرف على المشي وسماعات الرأس للتعرف عليك، وكيفية تتبع وفهم بيانات معدل ضربات القلب. قامت Apple أيضًا بإنشاء وإصدار “أكبر مجموعة بيانات للأنشطة البشرية تعتمد على أجهزة استشعار متعددة المواقع ومتعددة الأجهزة” متاحة بعد جمع البيانات من 50 مشاركًا باستخدام أجهزة استشعار متعددة على الجسم.

يبدو أيضًا أن شركة Apple تتخيل الذكاء الاصطناعي كأداة إبداعية. في إحدى الأوراق البحثية، أجرى الباحثون مقابلات مع مجموعة من رسامي الرسوم المتحركة والمصممين والمهندسين وقاموا ببناء نظام يسمى Keyframer الذي “يمكّن[s] للمستخدمين إنشاء التصميمات التي تم إنشاؤها وتحسينها بشكل متكرر. بدلاً من كتابة مطالبة والحصول على صورة، ثم كتابة مطالبة أخرى للحصول على صورة أخرى، تبدأ بمطالبة ثم تحصل بعد ذلك على مجموعة أدوات لتعديل أجزاء من الصورة وتحسينها حسب رغبتك. يمكنك أن تتخيل ظهور هذا النوع من العمليات الفنية ذهابًا وإيابًا في أي مكان بدءًا من منشئ Memoji وحتى بعض الأدوات الفنية الأكثر احترافًا من Apple.

وفي بحث آخر، تصف شركة Apple أداة تسمى MGIE تتيح لك تحرير صورة فقط عن طريق وصف التعديلات التي تريد إجراؤها. (“اجعل السماء أكثر زرقة”، “اجعل وجهي أقل غرابة”، “أضف بعض الصخور،” هذا النوع من الأشياء.) “بدلاً من التوجيه الموجز ولكن الغامض، يستمد MGIE نية واضحة واعية بصريًا ويؤدي إلى تحرير الصور بشكل معقول “، كتب الباحثون. لم تكن تجاربها الأولية مثالية، لكنها كانت مثيرة للإعجاب.

قد نحصل أيضًا على بعض الذكاء الاصطناعي في Apple Music: بالنسبة إلى ورقة بحثية بعنوان “إلغاء صوت ستيريو غنائي مقيد بالموارد”، اكتشف الباحثون طرقًا لفصل الأصوات عن الآلات الموسيقية في الأغاني – والتي يمكن أن تكون مفيدة إذا أرادت Apple منح الأشخاص أدوات، على سبيل المثال. ، قم بإعادة مزج الأغاني بالطريقة التي يمكنك بها على TikTok أو Instagram.

في المستقبل، قد يتمكن Siri من فهم هاتفك واستخدامه نيابةً عنك.
الصورة: أبل

مع مرور الوقت، أراهن أن هذا هو نوع الأشياء التي ستميل إليها شركة Apple، خاصة على نظام التشغيل iOS. ستدمج Apple بعضًا منها في تطبيقاتها الخاصة؛ بعضها ستقدمه لمطوري الطرف الثالث كواجهات برمجة التطبيقات. (من المحتمل أن تكون ميزة اقتراحات دفتر اليومية الأخيرة بمثابة دليل جيد لكيفية عمل ذلك.) لقد تفاخرت شركة أبل دائمًا بقدرات أجهزتها، خاصة بالمقارنة مع جهاز أندرويد العادي الخاص بك؛ يمكن أن يكون إقران كل هذه القوة مع الذكاء الاصطناعي الذي يركز على الخصوصية على الجهاز بمثابة فرق كبير.

ولكن إذا كنت تريد أن ترى أكبر وأكثر طموحات الذكاء الاصطناعي في شركة Apple، فعليك أن تعرف المزيد عن Ferret. Ferret هو نموذج لغة كبير متعدد الوسائط يمكنه تلقي التعليمات والتركيز على شيء محدد قمت بوضع دائرة حوله أو تحديده بطريقة أخرى، وفهم العالم من حوله. لقد تم تصميمه لحالة استخدام الذكاء الاصطناعي العادية الآن لسؤال جهاز عن العالم من حولك، ولكنه قد يكون قادرًا أيضًا على فهم ما هو موجود على شاشتك. في ورقة Ferret، أظهر الباحثون أنه يمكن أن يساعدك في التنقل بين التطبيقات، والإجابة على الأسئلة حول تقييمات متجر التطبيقات، ووصف ما تبحث عنه، والمزيد. وهذا له آثار مثيرة حقًا على إمكانية الوصول ولكنه قد يغير تمامًا طريقة استخدامك لهاتفك – ونظارتك Vision Pro و/أو النظارات الذكية في يوم من الأيام.

نحن نتقدم كثيرًا هنا، ولكن يمكنك أن تتخيل كيف سيعمل هذا مع بعض الأشياء الأخرى التي تعمل عليها Apple. إن Siri الذي يمكنه فهم ما تريد، مقترنًا بجهاز يمكنه رؤية وفهم كل ما يحدث على شاشتك، هو هاتف يمكنه استخدام نفسه حرفيًا. لن تحتاج شركة Apple إلى عمليات تكامل عميقة مع كل شيء؛ يمكنه ببساطة تشغيل التطبيقات والنقر على الأزرار الصحيحة تلقائيًا.

مرة أخرى، كل هذا مجرد بحث، ولكي يعمل كل هذا بشكل جيد بدءًا من هذا الربيع سيكون إنجازًا تقنيًا لم يُسمع به من قبل. (أعني أنك جربت برامج الدردشة الآلية – وأنت تعلم أنها ليست رائعة.) لكنني أراهنك بأي شيء أننا سنحصل على بعض إعلانات الذكاء الاصطناعي الكبيرة في مؤتمر WWDC. حتى أن الرئيس التنفيذي لشركة Apple، تيم كوك، أثار هذا الأمر في شهر فبراير، ووعد بذلك بشكل أساسي في مكالمة الأرباح هذا الأسبوع. هناك شيئان واضحان للغاية: شركة Apple منخرطة إلى حد كبير في سباق الذكاء الاصطناعي، وقد يصل الأمر إلى إصلاح شامل لجهاز iPhone. تبا، قد تبدأ باستخدام سيري عن طيب خاطر! وسيكون هذا هو الإنجاز تمامًا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *