نماذج MiniCPM4 اللغوية: ثورة في الكفاءة على الأجهزة الطرفية

تُعدّ نماذج اللغات الكبيرة (LLMs) ركيزة أساسية في أنظمة الذكاء الاصطناعي، حيث تُمكّن من مهام متعددة مثل الترجمة الآلية، والمساعدة الافتراضية، والتفكير الآلي من خلال استخدام بنى المحولات (Transformers). ولكن، على الرغم من قدراتها العالية، فإن هذه النماذج كبيرة الحجم عادةً، وتتطلب بنية تحتية سحابية قوية للتدريب والاستنتاج. يؤدي هذا الاعتماد على السحابة إلى زيادة زمن الانتظار، وارتفاع التكاليف، ومخاوف تتعلق بالخصوصية، مما يحد من نشرها على الأجهزة الطرفية المحدودة الموارد. نماذج مثل GPT وLLaMA، التي تضم مليارات المعلمات، لا يمكنها العمل بكفاءة على الأجهزة المحلية نظرًا لحجمها وتعقيد عمليات التدريب والاستنتاج الخاصة بها. علاوة على ذلك، فإن اعتمادها على مجموعات بيانات ضخمة ووحدات معالجة رسومية عالية الأداء يجعلها غير مناسبة للبيئات المتنقلة أو المضمنة. وللتغلب على هذه التحديات، تزداد الحاجة إلى نماذج خفيفة الوزن وكفؤة قادرة على الأداء الجيد محليًا دون التضحية بقدرات الاستنتاج ومعالجة السياق.

تحديات الحلول الحالية

تم استكشاف عدة طرق لمعالجة هذه التحديات. تهدف آليات الانتباه المتناثر (Sparse Attention)، مثل NSA وMoBA، إلى تقليل استهلاك الذاكرة؛ ومع ذلك، فإنها إما تفتقر إلى الكفاءة في فك التشفير أو تُضيف عبئًا معماريًا كبيرًا. بالنسبة إلى معالجة البيانات، اعتمدت الطرق السابقة على عمليات جرف واسعة النطاق للويب، مما أدى إلى ظهور مجموعات بيانات ضاغطة وغير منظمة. تضمنت طرق الترشيح مصنفات fastText والتنقيح اليدوي، التي تفتقر إما إلى العمق أو قابلية التوسع. أما على صعيد التدريب، فقد تم استخدام أطر عمل مثل StepLaw لتحسين المعلمات التشغيلية بناءً على قوانين التحجيم المتوقعة؛ ومع ذلك، فإنها غالبًا ما تتطلب تجارب مكثفة ودورات عمل لوحدات معالجة الرسومية، مما يخلق حاجزًا أمام الدخول. كما تعمل تحسينات الاستنتاج، مثل FlashAttention، على تقليل التعقيد الحسابي، لكنها لا تزال تفتقر إلى تحقيق السرعات المطلوبة للتطبيقات في الوقت الفعلي على الأجهزة الطرفية.

MiniCPM4: هندسة، بيانات، واستنتاج فعالان

قدم باحثو OpenBMB نموذج MiniCPM4، وهو مجموعة من نماذج اللغات الكبيرة عالية الكفاءة المصممة خصيصًا للنشر على الأجهزة الطرفية. يتضمن التطوير نوعين: أحدهما بـ 0.5 مليار معلمة والآخر بـ 8 مليارات معلمة. تم بناء النموذج مع تحسينات في أربعة أبعاد أساسية: بنية النموذج، بيانات التدريب، خوارزمية التدريب، وأنظمة الاستنتاج.

تحسينات بنية النموذج

على مستوى البنية، قدم الفريق آلية InfLLM v2 للانتباه المتناثر، والتي تُسرّع كل من عملية التعبئة المسبقة وفك التشفير دون التضحية بفهم السياق.

تحسينات بيانات التدريب

أما على صعيد البيانات، فقد تم استخدام UltraClean لإنشاء وفلترة مجموعات بيانات التدريب، مما مكّن من استخدام 8 تريليون رمز تدريب فقط مقارنةً بـ 36 تريليون رمز استخدمتها نماذج تنافسية مثل Qwen3-8 B.

تحسينات خوارزمية التدريب

كما قام ModelTunnel v2 بإرشاد عملية التدريب من خلال ضبط المعلمات التشغيلية بكفاءة.

تحسينات أنظمة الاستنتاج

وأخيرًا، قام CPM.cu بمعالجة الاستنتاج باستخدام تنفيذ قائم على CUDA مستقل عن النظام الأساسي.

الابتكارات التقنية في MiniCPM4

صُممت مجموعة MiniCPM4 التقنية لتحقيق التوازن بين الأداء واستخدام الموارد. يقسم InfLLM v2 ذاكرة التخزين المؤقت للمفاتيح والقيم إلى كتل ويختار أفضل كتل ذات صلة باستخدام نواة دلالية للانتباه، مما يقلل من حساب الانتباه بنسبة 60٪ مقارنةً بـ NSA. يسمح اختيار كتلة السياق الديناميكي ومعالجة مجموعات الاستعلامات على مستوى الرمز بدعم تسلسلات يصل طولها إلى 128 ألف رمز مع الحفاظ على السرعة والاتساق. يعتمد UltraClean على التحقق الفعال من البيانات، باستخدام نموذج لغوي كبير مُدرّب مسبقًا وضبط دقيق قائم على التلدين على 10 مليارات رمز. يؤدي هذا إلى مجموعات بيانات ذات جودة أعلى، وهي UltraFineWeb باللغة الإنجليزية و UltraFineWeb-zh باللغة الصينية، والتي تتفوق على FineWeb بنسبة 3.61 و 1.98 نقطة مئوية على التوالي في متوسط أداء المعايير. يدعم UltraChat v2 أيضًا التدريب اللاحق من خلال إنشاء حوارات غنية بالاستنتاج متعددة الأدوار.

أداء المعايير ومكاسب السرعة

من حيث الأداء الخام، حققت نسخة 8B من النموذج درجات MMLU بنسبة 32.24٪، متفوقة على FineWeb (28.84٪) و FineWeb-edu (31.80٪). على ARC-C و ARC-E، سجلت 35.67٪ و 70.62٪ على التوالي، متجاوزة مجموعات البيانات المنافسة بأكثر من 10 نقاط مئوية. مقارنةً بـ Qwen3-8B، استخدم MiniCPM4 22٪ فقط من بيانات التدريب، إلا أنه حقق زيادة في سرعة الاستنتاج بمقدار 7 أضعاف على وثائق بطول 128 ألف رمز عند اختباره على وحدات معالجة رسومية طرفية مثل Jetson AGX Orin و RTX 4090. بلغ متوسط سرعة فك التشفير أكثر من 200 رمز/ثانية لإدخالات سياقية طويلة، وتدهورت البنية بشكل تدريجي إلى الانتباه الكثيف للتسلسلات الأقصر. بالإضافة إلى ذلك، مكّن استخدام BitCPM4 التدريب القادر على الكميّة، مما يسمح بالنشر على الأجهزة ذات القيود الأكثر صرامة على الذاكرة دون فقدان دقة الأداء.

النقاط الرئيسية لـ MiniCPM4

  • يأتي MiniCPM4 بحجمي معلمات 0.5 مليار و 8 مليارات، مُحسّنان للأجهزة الطرفية.
  • استخدم 8 تريليون رمز تدريب فقط، مقابل 36 تريليون لـ Qwen3-8 B.
  • حقق معالجة أسرع بـ 7 أضعاف لوثائق بطول 128 ألف رمز مقارنةً بـ Qwen3-8 B.
  • قلل InfLLM v2 تكاليف حساب الانتباه بنسبة 60٪ باستخدام الانتباه على مستوى الكتل.
  • تفوقت UltraFineWeb على FineWeb بنسبة 3.61٪ (الإنجليزية) و 1.98٪ (الصينية) في معايير الأداء.
  • حققت 35.67٪ على ARC-C، و 70.62٪ على ARC-E، و 32.24٪ على MMLU، متجاوزة مجموعات البيانات السابقة.
  • مكّن BitCPM4 نماذج اللغات الثلاثية المناسبة للأجهزة ذات الموارد المحدودة للغاية.
  • جمع نظام استنتاج CPM.cu بين تحسين CUDA والعينات التخمينية.
  • مكّن UltraChat v2 ضبطًا دقيقًا محسّنًا مع توليد حوارات غنية بالاستنتاج.
  • استخدم ModelTunnel v2 ScalingBench لضبط المعلمات التشغيلية بدقة، مما زاد من كفاءة التدريب.

الخلاصة: نماذج اللغات الكبيرة الكفؤة لتطبيقات الذكاء الاصطناعي الطرفية

في الختام، عالج النهج الشامل الذي اتخذه فريق MiniCPM4 جميع أوجه القصور الرئيسية المرتبطة بنماذج اللغات الكبيرة الحالية. من خلال تقديم استراتيجيات معمارية وتدريبية ونشرية جديدة، يحافظ النموذج على استجابات عالية الجودة، ويدعم فهم السياق الطويل، ويؤدي أداءً جيدًا في ظل قيود الأجهزة الطرفية. يتجاوز نجاح هذا العمل المقاييس الخام لإثبات إمكانية تحقيق الأداء المتطور خارج السحابة. يُمكّن هذا النموذج مجالات تطبيق جديدة، مثل المساعدين الآمنين دون اتصال بالإنترنت، والذكاء الاصطناعي المتنقل في الوقت الفعلي، والأنظمة المضمنة الذاتية، دون العبء الحسابي التقليدي. يمكنكم الاطلاع على الورقة البحثية، والنموذج على Hugging Face، وصفحة GitHub. جميع الحقوق لهذه البحوث تخص الباحثين في هذا المشروع.

المصدر: MarkTechPost