مقارنة معماريّة نماذج الخبراء المختلطين: Qwen3 30B-A3B مقابل GPT-OSS 20B
تقدم هذه المقالة مقارنة تقنية بين نموذجين حديثين من نماذج المحولات القائمة على آلية “مزيج الخبراء” (MoE): نموذج Qwen3 30B-A3B من علي بابا (الصادر في أبريل 2025) ونموذج GPT-OSS 20B من OpenAI (الصادر في أغسطس 2025). يمثل كلا النموذجين نهجين مختلفين لتصميم آلية MoE، حيث يوازنان بين الكفاءة الحسابية والأداء عبر سيناريوهات النشر المختلفة.
نظرة عامة على النماذج
| الميزة | Qwen3 30B-A3B | GPT-OSS 20B |
|---|---|---|
| إجمالي المعلمات | 30.5 مليار | 21 مليار |
| المعلمات النشطة | 3.3 مليار | 3.6 مليار |
| عدد الطبقات | 48 | 24 |
| خبراء MoE | 128 (8 نشطة) | 32 (4 نشطة) |
| آلية الانتباه | الانتباه المُجمّع للاستعلامات | الانتباه المُجمّع متعدد الاستعلامات |
| رؤوس الاستعلام/المفتاح/القيمة | 32Q / 4KV | 64Q / 8KV |
| نافذة السياق | 32,768 (مُوسّعة 262,144) | 128,000 |
| حجم المفردات | 151,936 | ~200,000 |
| الكميّة | دقة قياسية | MXFP4 أصلي |
| تاريخ الإصدار | أبريل 2025 | أغسطس 2025 |
مواصفات Qwen3 30B-A3B التقنية
تفاصيل البنية المعمارية
يعتمد Qwen3 30B-A3B بنية محوّل عميقة تتكون من 48 طبقة، تحتوي كل منها على تكوين “مزيج الخبراء” مع 128 خبيرًا لكل طبقة. ينشط النموذج 8 خبراء لكل رمز أثناء الاستنتاج، مما يحقق توازنًا بين التخصص والكفاءة الحسابية.
آلية الانتباه
يستخدم النموذج آلية “الانتباه المُجمّع للاستعلامات” (GQA) مع 32 رأس استعلام و 4 رؤوس مفتاح/قيمة. يُحسّن هذا التصميم من استخدام الذاكرة مع الحفاظ على جودة الانتباه، وهو أمر مفيد بشكل خاص لمعالجة السياقات الطويلة.
دعم السياق واللغات المتعددة
- طول السياق الأصلي: 32,768 رمزًا.
- السياق الموسع: يصل إلى 262,144 رمزًا (في أحدث المتغيرات).
- دعم اللغات المتعددة: 119 لغة اللهجة.
- المفردات: 151,936 رمزًا باستخدام تقنية BPE.
الميزات الفريدة
يُدمج Qwen3 نظام استدلال هجين يدعم كلًا من أوضاع “التفكير” و”عدم التفكير”، مما يسمح للمستخدمين بالتحكم في العبء الحسابي بناءً على تعقيد المهمة.
مواصفات GPT-OSS 20B التقنية
تفاصيل البنية المعمارية
يتميز GPT-OSS 20B بمحوّل من 24 طبقة مع 32 خبيرًا من MoE لكل طبقة. ينشط النموذج 4 خبراء لكل رمز، مع التركيز على سعة الخبراء الأوسع بدلاً من التخصص الدقيق.
آلية الانتباه
يُنفذ النموذج آلية “الانتباه المُجمّع متعدد الاستعلامات” مع 64 رأس استعلام و 8 رؤوس مفتاح/قيمة مرتبة في مجموعات من 8. يدعم هذا التكوين الاستنتاج الفعال مع الحفاظ على جودة الانتباه عبر البنية الأوسع.
السياق والتحسين
- طول السياق الأصلي: 128,000 رمزًا.
- الكميّة: MXFP4 أصلي (دقة 4.25 بت) لأوزان MoE.
- كفاءة الذاكرة: يعمل على ذاكرة 16 جيجابايت مع الكميّة.
- مُعالج الرموز: o200k_harmony (مجموعة فرعية من مُعالج رموز GPT-4).
مقارنة فلسفة البنية المعمارية
إستراتيجية العمق مقابل العرض
- Qwen3 30B-A3B: يركز على العمق وتنوع الخبراء: 48 طبقة تُمكّن من الاستدلال متعدد المراحل والتجريد الهرمي. 128 خبيرًا لكل طبقة يوفر تخصصًا دقيقًا. مناسب لمهام الاستدلال المعقدة التي تتطلب معالجة عميقة.
- GPT-OSS 20B: يعطي الأولوية للعرض والكثافة الحسابية: 24 طبقة مع خبراء أكبر تُعظم القدرة التمثيلية لكل طبقة. عدد أقل ولكن خبراء أقوى (32 مقابل 128) يزيد من قدرة الخبير الفردية. مُحسّن للاستنتاج الفعال بمرور واحد.
إستراتيجيات توجيه MoE
- Qwen3: يُوجّه الرموز عبر 8 من أصل 128 خبيرًا، مما يشجع مسارات معالجة متنوعة وحساسة للسياق واتخاذ قرارات نمطية.
- GPT-OSS: يُوجّه الرموز عبر 4 من أصل 32 خبيرًا، مما يُعظم قوة المعالجة لكل خبير ويُقدم معالجة مُركزة لكل خطوة استنتاج.
اعتبارات الذاكرة والنشر
Qwen3 30B-A3B
- متطلبات الذاكرة: متغيرة بناءً على الدقة وطول السياق.
- النشر: مُحسّن للنشر السحابي ونشر الحافة مع امتداد سياق مرن.
- الكميّة: يدعم مخططات الكميّة المختلفة بعد التدريب.
GPT-OSS 20B
- متطلبات الذاكرة: 16 جيجابايت مع كمية MXFP4 الأصلية، ~48 جيجابايت في bfloat16.
- النشر: مُصمم للتوافق مع أجهزة المستهلك.
- الكميّة: يُمكّن التدريب الأصلي MXFP4 من الاستنتاج الفعال دون تدهور الجودة.
خصائص الأداء
Qwen3 30B-A3B
- يتفوق في الاستدلال الرياضي، والترميز، والمهام المنطقية المعقدة.
- أداء قوي في سيناريوهات متعددة اللغات عبر 119 لغة.
- يوفر وضع التفكير قدرات استدلال مُحسّنة للمشاكل المعقدة.
GPT-OSS 20B
- يحقق أداءً مُقارنًا لـ OpenAI o3-mini في المعايير القياسية.
- مُحسّن لاستخدام الأدوات، وتصفح الويب، واستدعاء الوظائف.
- استدلال قوي لسلسلة الأفكار مع مستويات جهد استدلال قابلة للتعديل.
توصيات استخدام الحالات
اختر Qwen3 30B-A3B لـ:
- مهام الاستدلال المعقدة التي تتطلب معالجة متعددة المراحل.
- التطبيقات متعددة اللغات عبر لغات متنوعة.
- السيناريوهات التي تتطلب امتدادًا مرنًا لطول السياق.
- التطبيقات التي تُقدّر فيها شفافية التفكير/الاستدلال.
اختر GPT-OSS 20B لـ:
- عمليات النشر المقيدة بالموارد التي تتطلب الكفاءة.
- تطبيقات استدعاء الأدوات والتطبيقات الوكيلة.
- الاستنتاج السريع مع أداء ثابت.
- سيناريوهات نشر الحافة ذات الذاكرة المحدودة.
الخلاصة
يمثل كل من Qwen3 30B-A3B و GPT-OSS 20B نهجين مُتكاملين لتصميم بنية MoE. يُركز Qwen3 على العمق، وتنوع الخبراء، وقدرة اللغات المتعددة، مما يجعله مناسبًا لتطبيقات الاستدلال المعقدة. يُعطي GPT-OSS الأولوية للكفاءة، وتكامل الأدوات، ومرونة النشر، مما يجعله مناسبًا لبيئات الإنتاج العملية ذات الموارد المحدودة. يُظهر كلا النموذجين تطور بنى MoE لما هو أبعد من مجرد توسيع المعلمات، حيث يُدمج خيارات تصميم مُتطورة تُوائم قرارات البنية مع حالات الاستخدام والسيناريوهات المقصودة للنشر.




اترك تعليقاً