جدول المحتويات

جوجل تُطلق Gemini 2.5 Pro I/O: ثورة في عالم الذكاء الاصطناعي

أطلقت جوجل، قبل مؤتمرها السنوي للمطورين I/O، معاينة مبكرة لنموذجها الرائد للذكاء الاصطناعي Gemini 2.5 Pro (إصدار I/O)، والذي يُمثل تحديثًا كبيرًا يركز على تطوير البرمجيات والتفكير متعدد الوسائط والفهم. يقدم هذا الإصدار الأحدث تحسينات ملحوظة في دقة البرمجة، وإنشاء تطبيقات الويب، وفهم الفيديو، مما يضعه في طليعة قوائم تصنيف نماذج الذكاء الاصطناعي الكبيرة. بفضل تصنيفه الأول في فئتي تطوير تطبيقات الويب والبرمجة على منصة LM Arena، يبرز Gemini 2.5 Pro I/O كمنافس جديّ في مجال مساعدة البرمجة بتقنيات الذكاء الاصطناعي المتقدمة والذكاء متعدد الوسائط.

ريَادة تطوير تطبيقات الويب: الصدارة في WebDev Arena

يمتاز إصدار I/O بقدراته المتميزة في تطوير البرمجيات الأمامية، حيث حقق المركز الأول في قائمة تصنيف WebDev Arena، وهي معيار يعتمد على التقييم البشري لتطبيقات الويب المُولدة. مقارنةً بسلفه، تحسن النموذج بمقدار +147 نقطة Elo، مما يؤكد التقدم الملحوظ في الجودة والاتساق. وتشمل أهم إمكانياته:

توليد واجهة المستخدم الأمامية من الألف إلى الياء: يُنشئ Gemini 2.5 Pro I/O تطبيقات كاملة جاهزة للتصفح من مطالبة واحدة فقط. وتشمل المخرجات HTML مُنسقًا جيدًا، و CSS متجاوب، وجافا سكريبت وظيفي، مما يقلل الحاجة إلى مطالبات متكررة أو معالجة لاحقة.
توليد واجهة مستخدم عالية الدقة: يُفسر النموذج مطالبات واجهة المستخدم المُنسقة بدقة، مُنتجًا مكونات رمز قابلة للقراءة ومعيارية، مناسبة للنشر المباشر أو الدمج في قواعد الرموز الموجودة.
الاتساق عبر الوسائط المختلفة: تظل المخرجات متسقة عبر مختلف مهام الواجهة الأمامية، مما يُمكّن المطورين من استخدام النموذج في إنشاء نماذج التصميم، والتصميم، وحتى عرض المكونات على مستوى المكونات. هذا يجعل Gemini قيّمًا بشكل خاص في تبسيط سير عمل الواجهة الأمامية، من النموذج الأولي إلى النموذج الوظيفي.

الأداء العام في البرمجة: تجاوز GPT-4 Turbo و Claude 3.7

إلى جانب تطوير تطبيقات الويب، يُظهر Gemini 2.5 Pro I/O قدرات برمجة عامة قوية. يحتل الآن المرتبة الأولى في معيار البرمجة على منصة LM Arena، متفوقًا على منافسين مثل GPT-4 Turbo و Claude 3.7 Sonnet. وتشمل التحسينات الملحوظة:

دعم البرمجة متعددة الخطوات: يستطيع النموذج تنفيذ مهام مُتسلسلة مثل إعادة هيكلة الرمز، وتحسينه، والترجمة بين اللغات المختلفة بدقة مُحسّنة.
تحسين استخدام الأدوات: أفادت جوجل بتقليل أخطاء استدعاء الأدوات أثناء الاختبار الداخلي، وهو إنجاز مهم لسير العمل في التطوير في الوقت الحقيقي حيث يكون استدعاء الأدوات مرتبطًا ارتباطًا وثيقًا بمخرجات النموذج.
تعليمات مُنسقة عبر Vertex AI: في بيئات المؤسسات، يدعم النموذج تعليمات النظام المُنسقة، مما يمنح الفرق تحكمًا أكبر في تدفق التنفيذ، خاصةً في الأنظمة متعددة الوكلاء أو القائمة على سير العمل.

تجعل هذه التحسينات مجتمعة إصدار I/O مساعدًا أكثر موثوقية للمهام التي تتجاوز الإكمالات ذات الوظيفة الواحدة، مما يدعم ممارسات تطوير البرمجيات في العالم الحقيقي.

فهم الفيديو الأصلي والسياقات متعددة الوسائط

في قفزة ملحوظة نحو الذكاء الاصطناعي الشامل، يُقدم Gemini 2.5 Pro I/O دعمًا مُدمجًا لفهم الفيديو. يُحرز النموذج 84.8% في معيار VideoMME، مما يُشير إلى أداء قوي في مهام التفكير المكاني والزماني. وتشمل الميزات الرئيسية:

فهم الفيديو إلى بنية مباشرة: يمكن للمطورين إدخال مدخلات فيديو في AI Studio والحصول على مخرجات مُنسقة، مما يلغي الحاجة إلى خطوات وسيطة يدوية أو تبديل النماذج.
نافذة سياق متعددة الوسائط موحدة: يقبل النموذج تسلسلات مُمتدة ومتعددة الوسائط – نصوص، صور، وفيديوهات – ضمن سياق واحد. هذا يبسط تطوير سير العمل متعدد الوسائط حيث يكون الاستمرارية واحتباس الذاكرة أمرًا ضروريًا.

تم دمج فهم الفيديو في AI Studio اليوم، مع إمكانيات موسعة متاحة عبر Vertex AI، مما يجعل النموذج قابلاً للاستخدام على الفور للأدوات المُوجهة للمؤسسات. هذا يجعل Gemini مناسبًا لمجموعة من حالات الاستخدام الجديدة، من تلخيص محتوى الفيديو وأسئلة وأجوبة تعليمية إلى التكيّف الديناميكي لواجهة المستخدم بناءً على مدخلات الفيديو.

النشر والتكامل

يتوفر Gemini 2.5 Pro I/O الآن عبر منصات جوجل الرئيسية:

Google AI Studio: للتجريب التفاعلي وإنشاء النماذج الأولية السريعة.
Vertex AI: للنشر على مستوى المؤسسات مع دعم تكوين النظام واستخدام الأدوات.
تطبيق Gemini: للوصول العام عبر واجهات اللغة الطبيعية.

في حين أن النموذج لا يدعم بعد ضبط التفاصيل الدقيقة، إلا أنه يقبل التخصيص القائم على المطالبات والمدخلات/المخرجات المُنسقة، مما يجعله قابلًا للتكيف مع خطوط الأنابيب الخاصة بالمهام دون إعادة تدريب.

الخلاصة

يمثل Gemini 2.5 Pro I/O خطوة كبيرة إلى الأمام في جعل نماذج اللغات الكبيرة مفيدة عمليًا للمطورين والمؤسسات على حد سواء. إن ريادته في كل من قوائم تصنيف WebDev والبرمجة، بالإضافة إلى الدعم الأصلي للمدخلات متعددة الوسائط، يُوضح التركيز المتزايد لجوجل على التطبيق العملي في العالم الحقيقي. بدلاً من التركيز فقط على معايير نماذج اللغات الخام، يُعطي هذا الإصدار الأولوية للجودة الوظيفية، مُقدمًا للمطورين مخرجات مُنسقة ودقيقة وواعية للسياق عبر مجموعة متنوعة من المهام. مع Gemini 2.5 Pro I/O، تواصل جوجل تشكيل مستقبل أنظمة الذكاء الاصطناعي المُركز على المطورين.

المصدر: MarkTechPost