نماذج كُوِن 3-نيكست 80 مليار بارامتر من علي بابا: أداءٌ متميز مع دقة FP8

أعلن فريق كُوِن التابع لشركة علي بابا عن إصدار نقاط تفتيش مُكمّاة بدقة FP8 لنماذجه الجديدة Qwen3-Next-80B-A3B، وذلك في نسختين مُدربتين لاحقاً: “إرشادية” (Instruct) و “تفكيرية” (Thinking). يهدف هذا الإصدار إلى تحقيق استنتاج عالي الإنتاجية مع سياق طويل للغاية وكفاءة عالية في نموذج خليط الخبراء (MoE). تُعكس نقاط التفتيش المُكمّاة بدقة FP8 إصدارات BF16، لكنها تُعبّئ أوزانًا بدقة FP8 دقيقة الحبيبات (حجم الكتلة 128) وملاحظات نشر لبُنى sglang و vLLM (الإصدارات الليلية). تظل معايير الأداء كما هي في نماذج BF16 الأصلية؛ حيث يتم توفير دقة FP8 “للتسهيل وتحسين الأداء”، وليس كجولة تقييم منفصلة.

بنية Qwen3-Next-80B-A3B

يُعدّ Qwen3-Next-80B-A3B بنية هجينة تجمع بين شبكة دلتا المُتحكم بها (بديل لانتباه الخطي/التلافيف) وشبكة الانتباه المُتحكم بها، مُتداخلة مع خليط خبراء (MoE) فائق التفرُّد. تُنشّط الميزانية الكُلية للبارامترات البالغة 80 مليار بارامتر حوالي 3 مليارات بارامتر لكل رمز عبر 512 خبيرًا (10 مُوجّهة + 1 مُشتركة). وُصفت هذه البنية على أنها 48 طبقة مُرتبة في 12 كتلة: 3×(شبكة دلتا المُتحكم بها → MoE) تليها 1×(شبكة الانتباه المُتحكم بها → MoE). يبلغ السياق الأصلي 262,144 رمزًا، وقد تم التحقق من صحته حتى ~1,010,000 رمز باستخدام مقياس RoPE (YaRN). يبلغ حجم الطبقة المخفية 2048؛ يستخدم الانتباه 16 رأسًا Q و 2 رأسًا KV ببعد 256 لكل رأس؛ تستخدم شبكة دلتا 32 رأسًا V و 16 رأسًا QK ببعد 128 لكل رأس. يُفيد فريق كُوِن أن النموذج الأساسي 80B-A3B يتفوق على Qwen3-32B في المهام الثانوية بتكلفة تدريب تبلغ ~10% منه، ويُقدم إنتاجية استنتاجية تفوق ~10 أضعاف ما بعد سياق 32 ألف رمز – مدفوعاً بانخفاض التنشيط في MoE والتنبؤ متعدد الرموز (MTP). النسخة الإرشادية لا تعتمد على المنطق (بدون علامات )، بينما تُلزم النسخة التفكيرية تتبع مسارات المنطق افتراضيًا وهي مُحسّنة للمشاكل المعقدة.

إصدارات FP8: ما الذي تغير بالفعل؟

تُشير بطاقات نماذج FP8 إلى أن الكميّة هي “FP8 دقيقة الحبيبات” بحجم كتلة 128. يختلف النشر قليلاً عن BF16: يتطلب كلا من sglang و vLLM الإصدارات الرئيسية/الليلية الحالية، مع توفير أوامر مثال لـ 256 ألف رمز و MTP اختياري. تُوصي بطاقة FP8 التفكيرية أيضًا بعلم محلل منطقي (مثل: –reasoning-parser deepseek-r1 في sglang، deepseek_r1 في vLLM). تحتفظ هذه الإصدارات برخصة Apache-2.0.

معايير الأداء (المُبلغ عنها على أوزان BF16)

تُعيد بطاقة FP8 الإرشادية إنتاج جدول مقارنة BF16 من كُوِن، مُضعة Qwen3-Next-80B-A3B-Instruct على قدم المساواة مع Qwen3-235B-A22B-Instruct-2507 في العديد من معايير المعرفة/الاستدلال/الترميز، وتتفوق عليها في أحمال العمل ذات السياق الطويل (حتى 256 ألف رمز). تُدرج بطاقة FP8 التفكيرية AIME’25، HMMT’25، MMLU-Pro/Redux، و LiveCodeBench v6، حيث يتفوق Qwen3-Next-80B-A3B-Thinking على إصدارات كُوِن 3 التفكيرية السابقة (30B A3B-2507، 32B) ويدّعي الفوز على Gemini-2.5-Flash-Thinking في العديد من معايير الأداء.

إشارات التدريب والتدريب اللاحق

تم تدريب هذه السلسلة على ~15 تريليون رمز قبل التدريب اللاحق. تُبرز كُوِن الإضافات لتحسين الاستقرار (التطبيع الطبقي ذو المركز الصفري، انحلال الوزن، إلخ) وتستخدم GSPO في التدريب المعزز بالتعلم المعزز للنموذج التفكيري للتعامل مع مزيج الانتباه الهجين + MoE العالي التفرُّد. يُستخدم MTP لتسريع الاستنتاج وتحسين إشارة ما قبل التدريب.

أهمية FP8

على المُسرّعات الحديثة، تعمل تنشيطات/أوزان FP8 على تقليل ضغط عرض نطاق الذاكرة وبصمة الذاكرة المقيمة مقابل BF16، مما يسمح بأحجام دفعات أكبر أو تسلسلات أطول بنفس زمن الوصول. بسبب توجيه A3B لحوالي 3 مليارات بارامتر فقط لكل رمز، فإن مزيج FP8 + تفرُّد MoE يُضاعف مكاسب الإنتاجية في أنظمة السياق الطويل، خاصةً عند إقرانه بفك التشفير التوقعي عبر MTP كما هو مُعرّض في علامات الخدمة. ومع ذلك، تتفاعل الكميّة مع أنواع التوجيه والانتباه؛ يمكن أن تختلف معدلات القبول الفعلية لفك التشفير التوقعي ودقة المهمة النهائية باختلاف محرك التنفيذ ونواة التنفيذ – ومن هنا يأتي توجيه كُوِن لاستخدام sglang/vLLM الحالي وضبط الإعدادات التوقعية.

ملخص

تُجعل إصدارات FP8 من كُوِن بنية 80 مليار/3 مليارات بارامتر نشطة A3B عملية للخدمة في سياق 256 ألف رمز على المحركات الرئيسية، مع الحفاظ على تصميم MoE الهجين ومسار MTP لتحقيق إنتاجية عالية. تحتفظ بطاقات النموذج بمعايير الأداء من BF16، لذا يجب على الفرق التحقق من دقة FP8 وزمن الوصول على أكوامها الخاصة، خاصةً مع محللات المنطق والإعدادات التوقعية. النتيجة النهائية: عرض نطاق ذاكرة أقل وتزامن مُحسّن بدون انحدار معماري، مُوضّع لأحمال عمل الإنتاج ذات السياق الطويل.

روابط إضافية:

  • [رابط صفحة GitHub](أضف رابط GitHub هنا)
  • [رابط تويتر](أضف رابط تويتر هنا)
  • [رابط ريديت](أضف رابط ريديت هنا)
  • [رابط النشرة البريدية](أضف رابط النشرة البريدية هنا)

المصدر: MarkTechPost