نموذج MiniMax-M1: ثورة في معالجة السياقات الطويلة بتقنية الذكاء الاصطناعي

قدم باحثو شركة MiniMax AI نموذجًا جديدًا ثوريًا في مجال معالجة اللغة الطبيعية، أطلقوا عليه اسم MiniMax-M1. يمتاز هذا النموذج بمعالجته الفعّالة للسياقات الطويلة وقدرته على التعلم المعزز، مما يفتح آفاقًا جديدة في تطوير تطبيقات الذكاء الاصطناعي المتقدمة.

التحديات في معالجة السياقات الطويلة

تتمثل إحدى التحديات الرئيسية في تطوير نماذج الذكاء الاصطناعي القادرة على التفكير المنطقي في قدرتها على معالجة السياقات الطويلة. فالنماذج اللغوية الكبيرة لا تقتصر وظيفتها على فهم اللغة فحسب، بل تتعداها إلى القدرة على التفكير في عمليات متعددة الخطوات تتطلب تركيزًا مستمرًا وفهمًا عميقًا للسياق. مع تزايد التوقعات من الذكاء الاصطناعي، خاصةً في بيئات التطوير البرمجية والحياة الواقعية، سعى الباحثون إلى تطوير نماذج قادرة على التعامل مع مدخلات أطول وسلاسل تفكير متماسكة وعميقة، دون زيادة التكاليف الحسابية بشكل كبير.

القيود الحسابية للنماذج التقليدية

تكمن الصعوبة الرئيسية في توسيع قدرات التفكير هذه في العبء الحسابي المفرط الذي ينتج عن زيادة طول عمليات توليد النصوص. تستخدم نماذج المحولات التقليدية آلية انتباه softmax، والتي تتناسب تربيعيًا مع حجم المدخلات. هذا الأمر يحد من قدرتها على معالجة تسلسلات مدخلات طويلة أو سلاسل تفكير ممتدة بكفاءة. تزداد هذه المشكلة حدة في المجالات التي تتطلب تفاعلًا في الوقت الفعلي أو تطبيقات حساسة للتكلفة، حيث تكون نفقات الاستنتاج كبيرة.

البدائل الحالية وقيودها

أدت الجهود المبذولة لمعالجة هذه المشكلة إلى ظهور مجموعة من الأساليب، بما في ذلك آليات الانتباه المتفرعة و المتغيرات الخطية. جرّبت بعض الفرق نماذج فضاء الحالة والشبكات المتكررة كبدائل لهياكل الانتباه التقليدية. ومع ذلك، لم يحظَ هذه الابتكارات باعتماد واسع في نماذج التفكير الأكثر تنافسية، إما بسبب تعقيدها المعماري أو عدم قابليتها للتوسع في عمليات النشر الحقيقية. حتى النظم واسعة النطاق، مثل نموذج Hunyuan-T1 من تينسنت، الذي يستخدم بنية Mamba الجديدة، لا يزال مصدره مغلقًا، مما يحد من المشاركة البحثية الأوسع نطاقًا والتحقق من صحتها.

مقدمة نموذج MiniMax-M1: نموذج مفتوح قابل للتطوير

يُقدم نموذج MiniMax-M1 حلًا لهذه التحديات. وهو نموذج كبير مفتوح المصدر، يجمع بين بنية خليط من الخبراء وآلية انتباه سريعة للغاية. يحتوي MiniMax-M1، الذي يُعتبر تطوّرًا لنموذج MiniMax-Text-01، على 456 مليار معلمة، مع تنشيط 45.9 مليار معلمة لكل رمز. يدعم أطوال سياقات تصل إلى مليون رمز – ثمانية أضعاف سعة نموذج DeepSeek R1.

آلية الانتباه الهجين

للتحسين من كفاءة هذه البنية، يستخدم MiniMax-M1 نظامًا هجينًا للانتباه، حيث يستخدم كل كتلة محول سابعة آلية انتباه softmax التقليدية، تليها ست كتل تستخدم آلية الانتباه السريعة (Lightning Attention). يُقلل هذا بشكل كبير من التعقيد الحسابي مع الحفاظ على الأداء. آلية الانتباه السريعة (Lightning Attention) تُعدّ واعية لإدخال/إخراج البيانات، ومُكيّفة من آلية الانتباه الخطية، وهي فعّالة بشكل خاص في توسيع أطوال التفكير إلى مئات الآلاف من الرموز.

خوارزمية CISPO وكفاءة التعلم المعزز

للتعلم المعزز الفعال، استخدم الباحثون خوارزمية جديدة تسمى CISPO. بدلاً من قص تحديثات الرموز كما تفعل الطرق التقليدية، تقوم CISPO بقص أوزان أخذ العينات الهامة، مما يسمح بتدريب مستقر ومساهمات ثابتة للرموز، حتى في التحديثات خارج السياسة. أثبتت خوارزمية CISPO فعاليتها في التغلب على عدم استقرار التدريب الذي واجهته البنى الهجينة. في الدراسات المقارنة باستخدام خط الأساس Qwen2.5-32B، حققت CISPO تسريعًا بمقدار الضعف مقارنةً بخوارزمية DAPO. بفضل ذلك، اكتملت دورة التعلم المعزز الكاملة لـ MiniMax-M1 في ثلاثة أسابيع فقط باستخدام 512 وحدة معالجة رسومية من طراز H800، بتكلفة إيجار تقارب 534,700 دولار.

نتائج الاختبارات والأداء المقارن

حقق MiniMax-M1 نتائج اختبارات مُقنعة. مقارنةً بـ DeepSeek-R1 و Qwen3-235B، تفوق في هندسة البرمجيات، ومعالجة السياقات الطويلة، واستخدام الأدوات الوكيلية. على الرغم من أنه تأخر عن أحدث إصدار من DeepSeek-R1-0528 في مسابقات الرياضيات والترميز، إلا أنه تجاوز كل من OpenAI o3 و Claude 4 Opus في معايير فهم السياقات الطويلة. علاوة على ذلك، تفوق على Gemini 2.5 Pro في تقييم استخدام أدوات الوكيل في TAU-Bench.

الخلاصة: نموذج قابل للتطوير وشفاف لذكاء اصطناعي طويل السياق

يمثل MiniMax-M1 خطوة كبيرة إلى الأمام من خلال توفير الشفافية وقابلية التوسع. من خلال معالجة التحدي المزدوج المتمثل في كفاءة الاستنتاج وتعقيد التدريب، وضع فريق البحث في MiniMax AI سابقة للنماذج المنطقية المفتوحة المصدر. لا يقتصر هذا العمل على تقديم حل للقيود الحسابية فحسب، بل يُقدم أيضًا أساليب عملية لتوسيع نطاق ذكاء نماذج اللغة إلى تطبيقات العالم الحقيقي.

يمكنكم الاطلاع على الورقة البحثية والنموذج وصفحة GitHub. جميع الحقوق محفوظة للباحثين في هذا المشروع. تابعونا على تويتر، وانضموا إلى مجتمعنا على ريديت، واشتركوا في قائمتنا البريدية.

المصدر: MarkTechPost