جوجل تطلق نموذج Gemini 1.5 Pro AI وتضيف مميزات جديدة

قدمت جوجل نموذج الذكاء الاصطناعي (AI) مع أكبر نافذة سياقية، Gemini 1.5 Pro في المعاينة العامة ، حيث أعلن عملاق التكنولوجيا لأول مرة عن نموذج الذكاء الاصطناعي في فبراير، وعلى مدى الشهرين التاليين، كان متاحًا في Google AI Studio للمطورين لتجربته.

والآن أصبح متاحًا للمستخدمين تجربته، ويمكن للمتحمسين أيضًا إنشاء مفاتيح API أو الوصول إليها للبناء باستخدام نموذج اللغة الكبير (LLM)، وعند فتحه للجمهور، قام عملاق التكنولوجيا أيضًا بتضمين إمكانات جديدة متعددة في Gemini 1.5 Pro.

وتم تقديم نموذج الذكاء الاصطناعي في المعاينة العامة خلال حدث Google Cloud Next السنوي للشركة، ويأتي الإصدار القياسي من Gemini 1.5 Pro مع نافذة سياق رمزية تبلغ 1,28,000 رمز، وبالمقارنة، كان لدى Gemini 1.0 نافذة سياقية تبلغ 32000 رمزًا.

وهناك أيضًا نسخة خاصة من النموذج تأتي مع نافذة سياقية ضخمة تضم مليون رمز مميز، الرموز هي الوحدات الأساسية للبيانات، والتي يمكن فهمها على أنها مقاطع أو كلمات أو أقسام فرعية من الكلمات، وتعد نافذة السياق هي مقدار المعلومات التي يمكن لنموذج الذكاء الاصطناعي الوصول إليها، بناءً على الكلمات الرئيسية في الموجه، للعثور على المعلومات ذات الصلة.

ولوضع الأمر في السياق، يمكن أن تكون نافذة السياق المكونة من مليون رمز حوالي 700000 كلمة، وهو ما يشبه عشرة كتب متوسطة الحجم تحتوي على 300 صفحة، ويمكّن هذا النوع من نشر المعلومات الذكاء الاصطناعي من فهم السياق الأوسع والاستجابة بإجابة يمكن أن تكون أكثر صلة بالمستخدم، وعلاوة على ذلك، تعد هذه الإمكانية مفيدة بشكل خاص عندما يريد المستخدم من الذكاء الاصطناعي تحليل ملف كبير للعثور على جزء معين من المعلومات.

وتمكن مستخدم X (المعروف سابقًا باسم Twitter) Rowan Cheung من الوصول المبكر إلى نموذج Gemini AI ونشر النتائج التي توصل إليها من استخدامه، وقال في أحد المنشورات: “لقد قمت بتحميل مسابقة NBA dunk بأكملها من الليلة الماضية وسألت عن أي لعبة dunk حصلت على أعلى الدرجات. لقد كان Gemini 1.5 قادرًا بشكل لا يصدق على العثور على 50 غمرة مثالية محددة والتفاصيل من خلال فهم الفيديو السياقي الطويل فقط!

ويأتي نموذج الذكاء الاصطناعي مزودًا بالعديد من الميزات الجديدة أيضًا. أضافت Google دعمًا أصليًا للصوت أو الكلام، ويمكن لـ Gemini 1.5 Pro فهم المطالبات اللفظية، وإلى جانب ذلك، تمت إضافة File API للتعامل مع الملفات وتعليمات النظام ووضع JSON للمطورين للحصول على تحكم أفضل في النموذج، كما أنه يأتي مزودًا بقدرته على الوسائط المتعددة ويمكنه تحليل الصور ومقاطع الفيديو، نموذج الذكاء الاصطناعي متاح حاليًا في أكثر من 180 دولة.