نموذج اللغة الضخم “جرانيت 4.0 تيني” من IBM: كفاءة عالية مع سعة معالجة نصوص طويلة
يُعلن عملاق التكنولوجيا IBM عن إصدار معاينة من أصغر عضو في عائلة نماذج اللغة القادمة، “جرانيت 4.0″، ألا وهو “جرانيت 4.0 تيني”. تم إصدار هذا النموذج المُدمج تحت ترخيص Apache 2.0، وهو مصمم خصيصاً لمهام السياقات الطويلة ومتابعة التعليمات، حيث يجمع بين الكفاءة والشفافية والأداء العالي. يعكس هذا الإصدار التزام IBM المستمر بتقديم نماذج أساسية مفتوحة، قابلة للمراجعة، وجاهزة للاستخدام في المؤسسات.
نسختي المعاينة: “جرانيت 4.0 تيني بيز” و “جرانيت 4.0 تيني (تعليمات)”
تتضمن معاينة “جرانيت 4.0 تيني” نسختين رئيسيتين:
- جرانيت 4.0 تيني بيز (Base-Preview): تُظهر هذه النسخة بنية مُشفّر فقط (Decoder-only) مبتكرة.
- جرانيت 4.0 تيني (تعليمات) (Tiny-Preview (Instruct)): تم ضبط هذه النسخة بدقة لتطبيقات الحوار واللغات المتعددة.
على الرغم من انخفاض عدد المعلمات، إلا أن “جرانيت 4.0 تيني” يُظهر نتائج تنافسية في معايير اختبار المنطق والإنشاء، مما يُبرز فوائد تصميمه الهجين.
نظرة على البنية: هجين من خليط الخبراء مع ديناميكيات على طراز مامبا-2
تتمحور بنية “جرانيت 4.0 تيني” حول هيكل هجين من خليط الخبراء (MoE)، مع 7 مليارات معلمة إجمالية و 1 مليار معلمة نشطة فقط لكل تمريرة للأمام. تسمح هذه الندرة للنموذج بتقديم أداء قابل للتطوير مع تقليل كبير في العبء الحسابي، مما يجعله مناسبًا للبيئات ذات الموارد المحدودة والاستدلال على الحافة.
بنية مُشفّر فقط مع طبقات على طراز مامبا-2
تستخدم نسخة “بيز” بنية مُشفّر فقط مُعززة بطبقات على طراز “مامبا-2″، وهو بديل متكرر خطي لآليات الانتباه التقليدية. يُمكن هذا التحول المعماري النموذج من التوسع بكفاءة أكبر مع طول المدخلات، مما يعزز ملاءمته للمهام ذات السياقات الطويلة مثل فهم الوثائق، وتلخيص الحوار، وأسئلة الإجابة القائمة على المعرفة.
عدم استخدام ترميز المواضع (NoPE)
قرار تصميمي آخر ملحوظ هو استخدام “NoPE” (عدم استخدام ترميز المواضع). بدلاً من استخدام تعبئة المواضع الثابتة أو المُتعلمة، يُدمج النموذج معالجة المواضع مباشرة في ديناميكيات طبقاته. يُحسّن هذا النهج التعميم عبر أطوال المدخلات المختلفة ويساعد على الحفاظ على الاتساق في إنشاء التسلسلات الطويلة.
أداء المعايير: كفاءة بدون تنازلات
على الرغم من أنها نسخة معاينة، إلا أن “جرانيت 4.0 تيني” تُظهر بالفعل مكاسب أداء هامة مقارنة بالنماذج السابقة في سلسلة “جرانيت” من IBM. في تقييمات المعايير، تُظهر نسخة “بيز”:
- تحسن بنسبة +5.6 في اختبار DROP (الاستدلال المنفصل على الفقرات)، وهو معيار لاختبار أسئلة الإجابة متعددة القفزات.
- تحسن بنسبة +3.8 في اختبار AGIEval، الذي يُقيّم فهم اللغة العامة والمنطق.
تعزى هذه التحسينات إلى كل من بنية النموذج وتدريبه المكثف – والذي تم الإبلاغ عنه على 2.5 تريليون وحدة رمز، تغطي مجالات وتركيبات لغوية متنوعة.
النسخة المُضبوطة للتعليمات: مصممة للحوار، والوضوح، والوصول متعدد اللغات
تُوسّع نسخة “جرانيت 4.0 تيني (تعليمات)” النموذج الأساسي من خلال ضبط دقيق مُشرف (SFT) والتعلم المعزز (RL)، باستخدام مجموعة بيانات على طراز “تولو” تتكون من حوارات مفتوحة وصناعية. تم تصميم هذه النسخة خصيصاً لمتابعة التعليمات وحالات الاستخدام التفاعلية.
مع دعم نوافذ إدخال 8192 وحدة رمز وأطوال إنشاء 8192 وحدة رمز، يحافظ النموذج على الاتساق والدقة عبر التفاعلات المُمتدة. على عكس الهجائن المُشفّر- المُشفّر التي غالباً ما تُضحي بالقابليّة على التفسير من أجل الأداء، فإن الإعداد المُشفّر فقط هنا يُنتج مخرجات أوضح وأكثر قابلية للتتبع – وهي ميزة قيّمة للتطبيقات المؤسسية والتطبيقات الحرجة للسلامة.
تُظهر النسخة المُضبوطة للتعليمات النتائج التالية:
- 86.1 في اختبار IFEval، مما يشير إلى أداء قوي في معايير متابعة التعليمات.
- 70.05 في اختبار GSM8K، لحل مسائل الرياضيات في المدارس الابتدائية.
- 82.41 في اختبار HumanEval، لقياس دقة إنشاء رمز Python.
علاوة على ذلك، يدعم نموذج التعليمات التفاعل متعدد اللغات عبر 12 لغة، مما يجعله قابلاً للتطبيق للنشر العالمي في خدمة العملاء، وأتمتة المؤسسات، والأدوات التعليمية.
التوفر مفتوح المصدر وتكامل النظام البيئي
جعلت IBM كلا النموذجين متاحين للجمهور على منصة Hugging Face:
- [رابط نموذج جرانيت 4.0 تيني بيز]
- [رابط نموذج جرانيت 4.0 تيني (تعليمات)]
تُرفق النماذج بأوزان النموذج الكاملة، وملفات التكوين، وأمثلة على نصوص الاستخدام تحت ترخيص Apache 2.0، مما يشجع على التجريب الشفاف، والضبط الدقيق، والتكامل عبر سير عمل معالجة اللغة الطبيعية.
التوقعات: تمهيد الطريق لـ “جرانيت 4.0”
تُشكل معاينة “جرانيت 4.0 تيني” لمحة مبكرة عن استراتيجية IBM الأوسع لنظام نماذج اللغة من الجيل التالي. من خلال الجمع بين بنيات MoE الكفؤة، ودعم السياقات الطويلة، والضبط المُركز على التعليمات، تهدف عائلة النماذج إلى تقديم إمكانات متطورة في حزمة قابلة للتحكم وفيها كفاءة عالية في استخدام الموارد. مع إصدار المزيد من نماذج “جرانيت 4.0″، يمكننا أن نتوقع من IBM تعزيز استثمارها في الذكاء الاصطناعي المسؤول والمفتوح – مما يُضعها كلاعب رئيسي في تشكيل مستقبل نماذج اللغة الشفافة وعالية الأداء للمؤسسات والأبحاث.
اترك تعليقاً