جمّعة 3n: ثورة الذكاء الاصطناعي على الأجهزة الطرفية

أعلنت جوجل مؤخراً عن إطلاق نموذج جمّعة 3n، إضافة جديدة لعائلتها من النماذج المفتوحة المصدر، مصمم خصيصاً لإتاحة قدرات الذكاء الاصطناعي متعدد الوسائط على الأجهزة الطرفية. بفضل تصميمه المبتكر الذي يضع الأجهزة المحمولة في المقدمة، يستطيع جمّعة 3n معالجة وفهم النصوص والصور والصوت والفيديو مباشرةً على الجهاز، دون الحاجة إلى الاعتماد على الحوسبة السحابية. يمثل هذا التطور نقلة نوعية نحو تجارب ذكاء اصطناعي تحافظ على الخصوصية وفي الوقت الحقيقي على أجهزة متنوعة مثل الهواتف الذكية، والأجهزة القابلة للارتداء، والكاميرات الذكية.

أبرز المزايا التقنية لجمّعة 3n

تتضمن سلسلة جمّعة 3n نسختين: جمّعة 3n E2B و جمّعة 3n E4B، مُحسّنتان لتقديم أداء يضاهي نماذج 5 مليار و 8 مليار بارامتر تقليدياً على التوالي، مع استخدام موارد أقل بكثير. تدمج هذه النماذج ابتكارات معمارية تقلل بشكل كبير من متطلبات الذاكرة والطاقة، مما يتيح الاستنتاج عالي الجودة محلياً على أجهزة طرفية.

  • قدرات متعددة الوسائط: يدعم جمّعة 3n الفهم متعدد الوسائط بـ 35 لغة، والمهام النصية فقط بأكثر من 140 لغة.
  • كفاءة عالية في الاستدلال: يتخطى متغير E4B حاجز 1300 نقطة في معايير أكاديمية مثل MMLU، وهو إنجاز يُعد الأول من نوعه للنماذج التي تقل عن 10 مليار بارامتر.
  • كفاءة عالية: يسمح الهيكل المدمج للنموذج بالعمل بنصف مساحة ذاكرة نماذج مماثلة، مع الحفاظ على جودة عالية عبر حالات الاستخدام المختلفة.

متغيرات النموذج وأدائه

  • جمّعة 3n E2B: مصمم لكفاءة عالية على الأجهزة ذات الموارد المحدودة. يؤدي مثل نموذج 5 مليار بارامتر مع استهلاك طاقة أقل.
  • جمّعة 3n E4B: متغير عالي الأداء يضاهي أو يتجاوز نماذج فئة 8 مليار بارامتر في المعايير. وهو أول نموذج أقل من 10 مليار بارامتر يتجاوز 1300 نقطة في MMLU.

كلا النموذجين مُحسّنان لـ:

  • المهام المعقدة في الرياضيات والترميز والمنطق.
  • التفاعلات المتقدمة بين الرؤية واللغة (كتابة التعليقات التوضيحية للصور، والأسئلة والأجوبة المرئية).
  • فهم الكلام والفيديو في الوقت الحقيقي.

تصميم يركز على المطورين والوصول المفتوح

أتاحت جوجل جمّعة 3n عبر منصات مثل Hugging Face مع نقاط تفتيش تدريب مُعدة مسبقاً وواجهات برمجة التطبيقات (APIs). يمكن للمطورين بسهولة ضبط النماذج بدقة أو نشرها عبر الأجهزة، وذلك بفضل توافقها مع TensorFlow Lite و ONNX و NVIDIA TensorRT. يوفر الدليل الرسمي للمطورين دعمًا لدمج جمّعة 3n في تطبيقات متنوعة، بما في ذلك:

  • أدوات إمكانية الوصول المُدركة للبيئة.
  • المساعدين الشخصيين الذكيين.
  • المُترجمين في الوقت الحقيقي لتطبيقات الواقع المعزز والواقع الافتراضي.

التطبيقات على الأجهزة الطرفية

يفتح جمّعة 3n إمكانيات جديدة للتطبيقات الذكية الأصلية على الأجهزة الطرفية:

  • إمكانية الوصول على الجهاز: الترجمة التلقائية والرواية المُدركة للبيئة للمستخدمين ذوي ضعف السمع أو البصر.
  • التعليم التفاعلي: تطبيقات تجمع بين النصوص والصور والصوت لتمكين تجارب تعليمية غنية وغامرة.
  • أنظمة الرؤية الذاتية: كاميرات ذكية تُفسر الحركة ووجود الأشياء وسياق الصوت دون إرسال البيانات إلى السحابة.

تجعل هذه الميزات جمّعة 3n خيارًا قويًا لنشر الذكاء الاصطناعي الذي يُعطى الأولوية للخصوصية، حيث لا تترك بيانات المستخدم الحساسة الجهاز المحلي.

رؤى حول التدريب والتحسين

تم تدريب جمّعة 3n باستخدام مجموعة بيانات متعددة الوسائط مُدققة وقوية تجمع بين النصوص والصور والتسلسلات الصوتية والفيديو. باستخدام استراتيجيات ضبط دقيقة وفعالة للبيانات، ضمنت جوجل أن يحافظ النموذج على تعميم عالي حتى مع عدد أصغر نسبيًا من المعلمات. ساهمت الابتكارات في تصميم كتلة المحولات، وندرة الانتباه، وتوجيه الرموز في تحسين كفاءة وقت التشغيل.

أهمية جمّعة 3n

يشير جمّعة 3n إلى تحول في كيفية بناء ونشر النماذج الأساسية. بدلاً من السعي نحو أحجام نماذج أكبر فأكبر، يركز على:

  • الكفاءة المُدارة بالبنية.
  • الفهم متعدد الوسائط.
  • قابلية نقل النشر.

يتوافق هذا مع رؤية جوجل الأوسع للذكاء الاصطناعي على الأجهزة: أذكى، وأسرع، وأكثر خصوصية، ومتاح عالميًا. بالنسبة للمطورين والشركات، يعني هذا ذكاء اصطناعي يعمل على أجهزة قياسية مع تقديم نفس دقة نماذج الحوسبة السحابية.

الخاتمة

مع إطلاق جمّعة 3n، لا تُطلق جوجل نموذجًا أساسيًا آخر فحسب، بل تعيد تعريف بنية الحوسبة الذكية على الأجهزة الطرفية. يوفر توفر متغيرات E2B و E4B مرونة لكل من تطبيقات الهاتف الخفيف والمهام عالية الأداء للذكاء الاصطناعي على الأجهزة الطرفية. مع انتشار الواجهات متعددة الوسائط، يبرز جمّعة 3n كنموذج أساسي عملي وقوي مُحسّن للاستخدام في العالم الحقيقي.

المصدر: MarkTechPost