يمكن لأحدث تحديث للذكاء الاصطناعي لـ Anthopic استخدام جهاز كمبيوتر بمفرده


يحتوي أحدث طراز Claude 3.5 Sonnet AI من Anthropic على ميزة جديدة في الإصدار التجريبي العام يمكنها التحكم في جهاز الكمبيوتر من خلال النظر إلى الشاشة، وتحريك المؤشر، والنقر على الأزرار، وكتابة النص. الميزة الجديدة، التي تسمى “استخدام الكمبيوتر”، متاحة اليوم على واجهة برمجة التطبيقات (API)، مما يسمح للمطورين بتوجيه كلود للعمل على جهاز كمبيوتر كما يفعل الإنسان، كما هو موضح على جهاز Mac في الفيديو أدناه.

وقد أظهرت ميزة Copilot Vision من Microsoft وتطبيق OpenAI لسطح المكتب لـ ChatGPT ما يمكن أن تفعله أدوات الذكاء الاصطناعي الخاصة بهم بناءً على رؤية شاشة جهاز الكمبيوتر الخاص بك، وتتمتع Google بقدرات مماثلة في تطبيق Gemini على هواتف Android. لكنهم لم ينتقلوا إلى الخطوة التالية المتمثلة في إطلاق أدوات على نطاق واسع جاهزة للنقر عليها وتنفيذ المهام نيابةً عنك بهذه الطريقة. ووعدت رابيت بقدرات مماثلة لجهاز R1، لكنها لم تقدمه بعد.

تحذر أنثروبيك من أن استخدام الكمبيوتر لا يزال تجريبيًا ويمكن أن يكون “مرهقًا وعرضة للخطأ”. تقول الشركة: “إننا نصدر استخدام الكمبيوتر مبكرًا للحصول على تعليقات من المطورين، ونتوقع أن تتحسن القدرة بسرعة بمرور الوقت.”

هناك العديد من الإجراءات التي يقوم بها الأشخاص بشكل روتيني باستخدام أجهزة الكمبيوتر (السحب والتكبير/التصغير وما إلى ذلك) والتي لا يستطيع كلود تجربتها بعد. إن طبيعة “الكتاب المتحرك” التي تتسم بها رؤية كلود للشاشة – التقاط لقطات الشاشة وتجميعها معًا، بدلاً من مراقبة دفق فيديو أكثر دقة – تعني أنها يمكن أن تفوت الإجراءات أو الإشعارات قصيرة العمر.

أيضًا، يبدو أن هذا الإصدار من كلود قد طُلب منه الابتعاد عن وسائل التواصل الاجتماعي، مع “إجراءات لمراقبة متى يُطلب من كلود المشاركة في نشاط متعلق بالانتخابات، بالإضافة إلى أنظمة لإبعاد كلود عن أنشطة مثل إنشاء ونشر المحتوى على وسائل التواصل الاجتماعي، أو تسجيل نطاقات الويب، أو التفاعل مع المواقع الحكومية.

وفي الوقت نفسه، تقول Anthropic أن طراز Claude 3.5 Sonnet الجديد لديه تحسينات في العديد من المعايير ويتم تقديمه للعملاء بنفس السعر والسرعة مثل سابقه:

يُظهر Claude 3.5 Sonnet المحدث تحسينات واسعة النطاق على معايير الصناعة، مع مكاسب قوية بشكل خاص في مهام الترميز الوكيل واستخدام الأدوات. فيما يتعلق بالبرمجة، فإنه يعمل على تحسين الأداء على SWE-bench Verified من 33.4% إلى 49.0%، مسجلاً نقاطًا أعلى من جميع النماذج المتاحة للجمهور – بما في ذلك النماذج المنطقية مثل OpenAI o1-preview والأنظمة المتخصصة المصممة للتشفير الوكيل. كما أنه يعمل على تحسين الأداء في TAU-bench، وهي مهمة استخدام أداة وكيل، من 62.6% إلى 69.2% في مجال البيع بالتجزئة، ومن 36.0% إلى 46.0% في مجال الطيران الأكثر تحديًا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *