نماذج زيبُو للذكاء الاصطناعي GLM-4.5: ثورةٌ في الذكاء الاصطناعي مفتوح المصدر
أعلنت شركة زيبُو للذكاء الاصطناعي (Zhipu AI) مؤخراً عن إطلاق سلسلة نماذجها اللغوية الكبيرة الجديدة GLM-4.5، والتي تضمّ نموذجين رئيسيين: GLM-4.5 و GLM-4.5-Air. تمثل هذه النماذج نقلة نوعية في عالم الذكاء الاصطناعي مفتوح المصدر، وذلك بفضل قدراتها المتقدمة في مجال الاستدلال والتفكير، بالإضافة إلى سهولة الوصول إليها. تهدف هذه السلسلة إلى سدّ الفجوة بين قدرات الاستدلال، وكتابة الشفرات البرمجية، وتطبيقات الوكلاء الذكيين، وذلك بكفاءة عالية على مختلف مستويات الموارد الحاسوبية.
بنية النموذج والمعلمات
النموذج | إجمالي المعلمات | المعلمات النشطة | الملاحظات |
---|---|---|---|
GLM-4.5 | 355 مليار | 32 مليار | من أكبر النماذج مفتوحة المصدر، بأداء متميز في المعايير القياسية |
GLM-4.5-Air | 106 مليار | 12 مليار | نموذج صغير الحجم، ذو كفاءة عالية، ومتوافق مع الأجهزة المتوسطة |
يعتمد GLM-4.5 على بنية “مزيج الخبراء” (MoE)، مع ما مجموعه 355 مليار معلمة (32 مليار معلمة نشطة في وقت واحد). صُمّم هذا النموذج لتقديم أداء متطور في تطبيقات الاستدلال المعقدة وتطبيقات الوكلاء الذكيين. أما GLM-4.5-Air، فيقدم قدرات مشابهة مع 106 مليار معلمة إجمالية و 12 مليار معلمة نشطة، مما يجعله أكثر كفاءة من حيث استخدام الموارد الحاسوبية.
آلية الاستدلال الهجينة: وضعان في إطار واحد
يقدم كلا النموذجين نهجًا هجينًا للاستدلال، يتضمن وضعين:
-
وضع التفكير (Thinking Mode): يُمكّن هذا الوضع من إجراء استدلال معقد خطوة بخطوة، واستخدام الأدوات، والتخطيط متعدد الخطوات، بالإضافة إلى تنفيذ مهام الوكلاء الذكيين بشكل مستقل.
-
وضع عدم التفكير (Non-Thinking Mode): يُحسّن هذا الوضع من سرعة الاستجابة، ويوفر استجابات فورية، مما يجعله مثاليًا للاستخدامات التفاعلية السريعة والمحادثات.
يُلبّي هذا التصميم المزدوج احتياجات سير العمل المعرفي المتطور، واحتياجات التفاعل المنخفض للوقت، ضمن نموذج واحد، مما يُمكّن جيلًا جديدًا من وكلاء الذكاء الاصطناعي.
معايير الأداء
قامت شركة زيبُو باختبار GLM-4.5 على 12 اختبارًا قياسيًا (بما في ذلك MMLU و GSM8K و HumanEval):
-
GLM-4.5: حقق متوسط درجة قدرها 63.2، واحتل المرتبة الثالثة بشكل عام (الثانية عالميًا، والأولى بين جميع النماذج مفتوحة المصدر).
-
GLM-4.5-Air: حقق درجة تنافسية بلغت 59.8، ليُصبح الرائد بين النماذج التي تحتوي على حوالي 100 مليار معلمة.
كما تفوق على منافسيه البارزين في مجالات محددة، مثل: معدل نجاح استدعاء الأدوات (90.6%)، متفوقًا على نماذج مثل Claude 3.5 Sonnet و Kimi K2. كما أظهر نتائج قوية بشكل خاص في المهام المتعلقة باللغة الصينية وكتابة الشفرات البرمجية، مع نتائج متطورة باستمرار عبر المعايير القياسية مفتوحة المصدر.
قدرات الوكلاء والهندسة المعمارية
يُحسّن GLM-4.5 تصميم “الوكيل الأصلي” (Agent-native): حيث يتم دمج الوظائف الأساسية للوكيل (الاستدلال، والتخطيط، وتنفيذ الإجراءات) مباشرةً في بنية النموذج. وهذا يعني:
- تحليل المهام وتخطيطها على عدة خطوات.
- استخدام الأدوات والتكامل مع واجهات برمجة التطبيقات الخارجية.
- إدارة عرض البيانات المعقدة وسير العمل.
- دعم أصلي لدورات الاستدلال ودورة الإدراك-الفعل.
تُمكّن هذه القدرات من إنشاء تطبيقات وكلاء شاملة، كانت محصورة سابقًا في الأطر الأصغر حجمًا أو واجهات برمجة التطبيقات المغلقة المصدر.
الكفاءة والسرعة والتكلفة
-
فك التشفير التنبؤي وتنبؤ الرموز المتعددة (MTP): بفضل ميزات مثل MTP، يحقق GLM-4.5 سرعة استنتاج أسرع بـ 2.5 إلى 8 أضعاف من النماذج السابقة، بسرعات توليد تزيد عن 100 رمز/ثانية على واجهة برمجة التطبيقات عالية السرعة، وحتى 200 رمز/ثانية في الممارسة العملية.
-
الذاكرة والأجهزة: تصميم GLM-4.5-Air (12 مليار معلمة نشطة) متوافق مع وحدات معالجة الرسومات الاستهلاكية (32-64 جيجابايت VRAM)، ويمكن كمّيته ليناسب مجموعة أوسع من الأجهزة. يُمكّن هذا تشغيل نماذج اللغات الكبيرة عالية الأداء محليًا للمستخدمين المتقدمين.
-
التسعير: تبدأ مكالمات واجهة برمجة التطبيقات من 0.11 دولارًا أمريكيًا لكل مليون رمز إدخال و 0.28 دولارًا أمريكيًا لكل مليون رمز إخراج – أسعار رائدة في الصناعة من حيث الحجم والجودة المُقدّمة.
الوصول مفتوح المصدر والنظام البيئي
السمة الرئيسية لسلسلة GLM-4.5 هي ترخيصها مفتوح المصدر MIT: تم إصدار النماذج الأساسية، والنماذج الهجينة (وضع التفكير/عدم التفكير)، والإصدارات FP8 للاستخدام التجاري غير المقيد والتطوير الثانوي. تم دمج الشفرات، ومحللات الأدوات، ومحركات الاستدلال في أطر عمل نماذج اللغات الكبيرة الرئيسية، بما في ذلك transformers و vLLM و SGLang، مع مستودعات مفصلة متاحة على GitHub و Hugging Face. يمكن استخدام النماذج من خلال محركات الاستنتاج الرئيسية، مع دعم كامل للضبط الدقيق والتشغيل في الموقع. يُشكّل هذا المستوى من الانفتاح والمرونة تباينًا كبيرًا مع الموقف المغلق المتزايد لمنافسيها الغربيين.
الابتكارات التقنية الرئيسية
-
طبقة تنبؤ الرموز المتعددة (MTP) لفك التشفير التنبؤي، مما يعزز بشكل كبير سرعة الاستنتاج على وحدات المعالجة المركزية ووحدات معالجة الرسومات.
-
بنية موحدة للاستدلال، وكتابة الشفرات، وسير عمل الإدراك-الفعل متعدد الوسائط.
-
تم تدريبه على 15 تريليون رمز، مع دعم ما يصل إلى 128 ألف رمز إدخال و 96 ألف رمز إخراج.
-
توافق فوري مع أدوات البحث والإنتاج، بما في ذلك التعليمات الخاصة بضبط النماذج وتكييفها للاستخدامات الجديدة.
الخلاصة
يمثل GLM-4.5 و GLM-4.5-Air قفزةً كبيرةً في نماذج الأساس مفتوحة المصدر، والوكلاء، والتركيز على الاستدلال. فهما يضعان معايير جديدة للوصول، والأداء، والقدرات المعرفية الموحدة – مما يوفر عمودًا فقريًا قويًا للجيل القادم من وكلاء الذكاء الاصطناعي وتطبيقات المطورين. يمكنكم زيارة صفحات GLM 4.5، و GLM 4.5 Air، وصفحة GitHub، والتفاصيل التقنية. جميع الحقوق محفوظة للباحثين الذين عملوا على هذا المشروع.
اترك تعليقاً