نظام K2 Think: ثورة في معالجة اللغة الطبيعية بمعلمات أقل

أعلن فريق من الباحثين في معهد نماذج الأساسيات في معهد محمد بن زايد للذكاء الاصطناعي (MBZUAI) وشركة G42 عن إطلاق نظام K2 Think، وهو نظام مفتوح المصدر لمعالجة اللغة الطبيعية يتكون من 32 مليار معلمة، ويُعدّ نقلة نوعية في مجال الاستدلال المتقدم للذكاء الاصطناعي. يعتمد هذا النظام على تقنيات متقدمة تجمع بين عدة عناصر رئيسية لتحقيق أداء متميز، متفوقاً على نماذج أكبر منه بكثير.

مكونات النظام وخصائصه المميزة

يُبنى نظام K2 Think على نموذج Qwen2.5-32B الأساسي مفتوح الوزن، مع إضافة بنية حاسوبية خفيفة الوزن تُستخدم وقت الاختبار. يركز تصميمه على كفاءة المعلمات، حيث تم اختيار حجم 32 مليار معلمة عمداً لتمكين التكرار السريع للنشر مع إتاحة مجال للتحسينات بعد التدريب. يتألف النظام من ستة عناصر رئيسية:

  1. التدريب الخاضع للإشراف مع سلسلة طويلة من الأفكار (Long Chain-of-Thought SFT): يستخدم هذا النظام مسارات مُدَرّبة بعناية لسلسلة طويلة من الأفكار، وأزواج التعليمات/الاستجابات التي تشمل الرياضيات، البرمجة، العلوم، اتباع التعليمات، والدردشة العامة (AM-Thinking-v1-Distilled). يهدف هذا إلى تعليم النموذج الأساسي كيفية إظهار عملية التفكير الوسيطة واعتماد شكل مُنَظّم للمخرجات.

  2. التعلم المعزز مع مكافآت قابلة للتحقق (RLVR): يتم تدريب K2 Think باستخدام تقنية التعلم المعزز مع مكافآت قابلة للتحقق على مجموعة بيانات Guru، التي تضم حوالي 92 ألف مُطالبة موزعة على ستة مجالات (الرياضيات، البرمجة، العلوم، المنطق، المحاكاة، والبيانات الجدولية). يضمن هذا دقة النتائج النهائية.

  3. التخطيط قبل التفكير (Agentic Planning): قبل توليد الحل الكامل، يستخرج النظام خطة مُوجزة، مما يُساهم في تحسين جودة الإجابات واختصار وقت الاستجابة.

  4. التوسيع وقت الاختبار (Test-time Scaling): يُستخدم اختيار أفضل N إجابة (مثل N=3) مع مُحقّقات للتحقق من صحة الإجابة الأكثر احتمالاً.

  5. فك التشفير الاستباقي (Speculative Decoding): يُحسّن هذا النظام من سرعة معالجة النصوص.

  6. الاستدلال على محرك رقاقة على نطاق الوافر (Wafer-Scale Engine): يُحسّن هذا من سرعة وكفاءة الاستدلال.

النتائج والأداء

أظهرت الاختبارات أداءً متميزاً لنظام K2 Think في العديد من المعايير:

  • الرياضيات: حقق K2 Think متوسط 67.99 في اختبارات الرياضيات (AIME’24, AIME’25, HMMT’25, Omni-HARD)، متفوقاً على نظرائه من النماذج المفتوحة المصدر، بل وحتى على نماذج أكبر حجماً بكثير.

  • البرمجة: سجل K2 Think درجة 63.97 في اختبار LiveCodeBench v5، متجاوزاً النماذج المماثلة في الحجم، وحتى بعض النماذج المفتوحة المصدر الأكبر.

  • العلوم: أظهر النظام أداءً تنافسياً في اختبارات المعرفة والتفكير العلمي (GPQA-Diamond و HLE).

الخلاصة

يُثبت نظام K2 Think أن الجمع بين التدريب اللاحق المتكامل، والحوسبة وقت الاختبار، والاستدلال المراعي للأجهزة، يمكن أن يُقلّص الفجوة بين أنظمة الاستدلال الكبيرة والخاصة والأنظمة المفتوحة المصدر. بفضل حجمه المُناسب (32 مليار معلمة)، يُعتبر النظام سهل التدريب والنشر، كما أنه يُسيطر على استخدام الرموز بفضل تقنية “التخطيط قبل التفكير” واختيار أفضل N إجابة. يُعتبر K2 Think نظاماً مفتوحاً بالكامل، حيث تتوفر أوزانه، بيانات تدريبه، شفرة نشره، وشفرة تحسين وقت الاختبار.

روابط إضافية:

  • ورقة البحث
  • [النموذج على Hugging Face](رابط Hugging Face – يجب إضافته إذا كان متوفراً)
  • [صفحة GitHub](رابط GitHub – يجب إضافته إذا كان متوفراً)

المصدر: MarkTechPost