هندسة هواوي السحابية CloudMatrix: بنية مركز بيانات متطورة لتقديم نماذج اللغات الكبيرة بكفاءة عالية
شهدت نماذج اللغات الكبيرة (LLMs) تطوراً سريعاً، مدفوعاً بزيادة هائلة في عدد المعلمات، واستخدام واسع النطاق لتصاميم “مزيج الخبراء” (MoE)، وإطالة أطوال السياق. تصل نماذج مثل DeepSeek-R1 و LLaMA-4 و Qwen-3 إلى تريليونات المعلمات، مما يتطلب قدرات حوسبة هائلة، وعرض نطاق ترددي ضخم للذاكرة، واتصالاً سريعاً بين الرقائق. يُحسّن نموذج MoE من الكفاءة، لكنه يخلق تحديات في توجيه الخبراء، بينما تُرهق نوافذ السياق التي تتجاوز مليون رمز آليات الانتباه وتخزين ذاكرة التخزين المؤقت KV، والتي تتناسب مع عدد المستخدمين المتزامنين. في عمليات النشر في العالم الحقيقي، تُعقّد المدخلات غير المتوقعة، وتنشيط الخبراء غير المتساوي، والاستعلامات المتقطعة عملية تقديم الخدمة بشكل أكبر. ويتطلب معالجة هذه الضغوط إعادة التفكير في البنية التحتية للذكاء الاصطناعي من الأساس من خلال التصميم المشترك للأجهزة والبرامج، والتنظيم التكيفي، وإدارة الموارد المرنة.
التحديات التي تواجه نماذج اللغات الكبيرة:
- زيادة عدد المعلمات بشكل هائل: تتطلب نماذج اللغات الكبيرة الحديثة تريليونات المعلمات، مما يزيد من متطلبات الحوسبة والذاكرة.
- هندسة “مزيج الخبراء” (MoE): على الرغم من كفاءتها، إلا أنها تُعقّد عملية توجيه الخبراء وتوزيع الأحمال.
- نوافذ سياق طويلة: تُحسّن نوافذ السياق الطويلة من القدرة على الاستدلال، لكنها تزيد من ضغط الحوسبة والذاكرة.
- الطلبات المتقطعة: تُشكل الطلبات غير المتوقعة تحديًا كبيرًا لإدارة الموارد وتقديم الخدمة بكفاءة.
حل هواوي: بنية CloudMatrix
للتغلب على هذه التحديات، قدم باحثو هواوي بنية مركز بيانات جديدة للذكاء الاصطناعي تُسمى CloudMatrix. ويتمثل أول تطبيق لها، CloudMatrix384، في دمج 384 وحدة معالجة عصبية Ascend 910C و 192 وحدة معالجة مركزية Kunpeng، كلها مرتبطة بنظام حافلة موحدة عالية النطاق الترددي ومنخفضة زمن الوصول، مما يُمكّن الاتصال من نظير إلى نظير. يسمح هذا التصميم بتجميع مرن لحسابات الحوسبة، والذاكرة، وموارد الشبكة، مما يجعله مثاليًا لوظائف التوازي في نموذج MoE والوصول الموزع إلى ذاكرة التخزين المؤقت KV. وبالإضافة إلى ذلك، يوفر CloudMatrix-Infer إطار عمل مُحسّن مع مجموعات موارد من نظير إلى نظير، وتوازي خبراء على نطاق واسع، وتحسينات مُدركة للأجهزة مثل خطوط الأنابيب وكمية INT8.
أداء CloudMatrix384:
أظهرت التقييمات باستخدام نموذج DeepSeek-R1 أن CloudMatrix حقق أقصى إنتاجية وكفاءة وقابلية للتطوير. حقق النظام معدل إنتاجية مسبقة للتحميل بلغ 6,688 رمزًا في الثانية لكل وحدة معالجة عصبية، ومعدل إنتاجية فك تشفير بلغ 1,943 رمزًا في الثانية مع الحفاظ على زمن الوصول أقل من 50 مللي ثانية، متفوقًا على أنظمة مماثلة مثل SGLang على NVIDIA H100 و DeepSeek على H800. حتى مع القيود الصارمة لمتطلبات زمن الوصول الأقل من 15 مللي ثانية، حافظ على معدل 538 رمزًا في الثانية في فك التشفير. علاوة على ذلك، حافظت كمية INT8 على الدقة عبر 16 مقياسًا مرجعيًا، مما يدل على أن تحسينات الكفاءة لا تُضر بجودة النموذج.
الخلاصة:
تُمثل هندسة هواوي السحابية CloudMatrix جيلًا جديدًا من بنية مراكز بيانات الذكاء الاصطناعي المصممة للتغلب على حدود قابلية التطوير في العناقيد التقليدية. يُجمع أول نظام إنتاجي لها، CloudMatrix384، بين 384 وحدة معالجة عصبية Ascend 910C و 192 وحدة معالجة مركزية Kunpeng في عقدة فائقة من نظير إلى نظير متصلة عبر حافلة موحدة عالية النطاق الترددي ومنخفضة زمن الوصول. لاستغلال هذا التصميم، يقترح البحث CloudMatrix-Infer، الذي يُفصل التحميل المسبق، وفك التشفير، والتخزين المؤقت في مجموعات مستقلة، ويدعم التوازي واسع النطاق للخبراء، ويطبق تحسينات مُدركة للأجهزة مثل خطوط الأنابيب وكمية INT8. عند اختباره على DeepSeek-R1، حقق أداءً متفوقًا في الإنتاجية وزمن الوصول مقارنةً بالأنظمة القائمة على NVIDIA، مع الحفاظ على الدقة، مما يُبرز إمكاناته في عمليات نشر الذكاء الاصطناعي على نطاق واسع.
[الورقة التقنية](رابط الورقة التقنية)
[صفحة GitHub](رابط صفحة GitHub)
[تويتر](رابط تويتر)
[ريديت](رابط ريديت)
[النشرة البريدية](رابط النشرة البريدية)






اترك تعليقاً