نموذج لغة SmolLM3: معالجة سياقية طويلة ومتعددة اللغات في حجم مضغوط

أعلنت هوجينغ فيس مؤخراً عن إطلاقها لـ SmolLM3، أحدث إصدار من نماذجها اللغوية “Smol”، المصممة لتقديم قدرات استنتاجية متعددة اللغات قوية عبر سياقات طويلة باستخدام بنية مضغوطة من 3 مليارات معامل. على عكس معظم النماذج القادرة على معالجة السياقات الطويلة والتي تتجاوز عادةً 7 مليارات معامل، تمكن SmolLM3 من تقديم أداء متطور (SoTA) بعدد أقل بكثير من المعاملات، مما يجعله أكثر كفاءة من حيث التكلفة وقابل للنشر على أجهزة ذات موارد محدودة، دون المساومة على إمكانياته مثل استخدام الأدوات، والاستدلال متعدد الخطوات، وتنوع اللغات.

نظرة عامة على SmolLM3

يبرز SmolLM3 كنموذج لغوي مضغوط، ومتعدد اللغات، وقادر على معالجة السياقات الطويلة بنظام مزدوج، حيث يمكنه التعامل مع تسلسلات تصل إلى 128 ألف رمز. تم تدريبه على 11 تريليون رمز، مما يجعله منافساً قوياً لنماذج مثل Mistral و LLaMA 2 و Falcon. وعلى الرغم من حجمه الصغير، إلا أن SmolLM3 يحقق أداءً قوياً بشكل مدهش في استخدام الأدوات وقدرة الاستدلال القليل اللقطات – وهي سمات ترتبط عادةً بنماذج أكبر منه حجماً بمرتين أو ثلاث مرات.

تم إصدار SmolLM3 في نسختين:

  • SmolLM3-3B-Base: النموذج اللغوي الأساسي المدرب على مجموعة بيانات 11 تريليون رمز.
  • SmolLM3-3B-Instruct: نسخة مُحسّنة للتوجيهات، مُحسّنة للاستدلال واستخدام الأدوات.

كلا النموذجين متوفران للجمهور بموجب ترخيص Apache 2.0 على منصة نماذج هوجينغ فيس.

الميزات الرئيسية

  1. الاستدلال السياقي الطويل (حتى 128 ألف رمز): يستخدم SmolLM3 آلية انتباه معدلة لمعالجة السياقات الطويلة للغاية بكفاءة – حتى 128,000 رمز. هذه القدرة ضرورية للمهام التي تتضمن مستندات مطولة، أو سجلات، أو سجلات منظمة حيث يؤثر طول السياق بشكل مباشر على الفهم والدقة.

  2. الاستدلال ثنائي الوضع: يدعم SmolLM3-3B المُحسّن للتوجيهات الاستدلال ثنائي الوضع:

    • اتباع التوجيهات للمهام على غرار الدردشة والمهام المُعززة بالأدوات.
    • الأسئلة والأجوبة وتوليد النصوص متعددة اللغات للمهام بلغات متعددة.
      ويسمح هذا التقسيم الثنائي للنموذج بالتفوق في كل من التوليد المفتوح والاستدلال المُنظم، مما يجعله مناسبًا لتطبيقات تتراوح من خطوط أنابيب استرجاع المعلومات إلى سير عمل الوكلاء.
  3. القدرات متعددة اللغات: تم تدريب SmolLM3 على مجموعة بيانات متعددة اللغات، وهو يدعم ست لغات: الإنجليزية، الفرنسية، الإسبانية، الألمانية، الإيطالية، والبرتغالية. ويقدم أداءً جيداً في معايير مثل XQuAD و MGSM، مما يدل على قدرته على التعميم عبر الحدود اللغوية مع انخفاض طفيف في الأداء.

  4. حجم مضغوط مع أداء متطور: يحقق SmolLM3، بمجرد 3 مليارات معامل، أداءً يقارب أو يتساوى مع نماذج أكبر مثل Mistral-7B في العديد من المهام. ويتم ذلك بفضل حجم ونوعية بيانات التدريب (11 تريليون رمز) والضبط المعماري الدقيق.

  5. استخدام الأدوات والمخرجات المُنظمة: يُظهر النموذج أداءً رائعاً في مهام استدعاء الأدوات – سواء في سير العمل القائم على المطالبات أو مع المخرجات المُنظمة. وهو يتبع بشكل صحيح قيود الإدخال والإخراج المُدارة وفقاً للنماذج، ويتفاعل بشكل جيد مع الأنظمة التي تتطلب سلوكاً حتمياً، مثل الوكلاء المستقلين والبيئات التي تعتمد على واجهات برمجة التطبيقات.

تفاصيل التدريب الفني

تم تدريب SmolLM3 على مزيج داخلي مُنسّق من قبل هوجينغ فيس، يتكون من محتوى ويب عالي الجودة، وشفرة برمجية، وأوراق أكاديمية، ومصادر متعددة اللغات. تم إجراء عملية تدريب 11 تريليون رمز باستخدام استراتيجيات تدريب موزعة متعددة العقد على مجموعات معالجات الرسوميات، باستخدام تحسينات مثل Flash Attention v2 للتدريب الفعال على تسلسلات طويلة. و المُجزّئ هو نموذج SentencePiece من 128 ألف رمز، مُشترك في جميع اللغات المدعومة. وللدعم السياقي الطويل، استخدمت هوجينغ فيس آليات انتباه خطية ومُجَمّعة تقلل من التعقيد التربيعي مع الحفاظ على الأداء. وقد مكّن ذلك النموذج من معالجة أطوال سياقية تصل إلى 128 ألف رمز أثناء التدريب والاستنتاج – دون حدوث اختناقات في الذاكرة التي تُصيب محولات الكثافة في هذا الحجم.

تم تدريب نسخة SmolLM3-3B المُحسّنة للتوجيهات بشكل أكبر باستخدام مكتبة Hugging Face’s trlx لمواءمة تعليمات الدردشة، ومهام الاستدلال، وعروض استخدام الأدوات.

معايير الأداء

يقدم SmolLM3 أداءً قوياً في العديد من معايير الاستدلال واللغات المتعددة:

  • XQuAD (الأسئلة والأجوبة متعددة اللغات): درجات تنافسية في جميع اللغات الست المدعومة.
  • MGSM (الرياضيات المدرسية متعددة اللغات): يتفوق على العديد من النماذج الأكبر حجماً في الإعدادات التي لا تتطلب تدريب.
  • ToolQA و MultiHopQA: يُظهر استدلالاً قوياً متعدد الخطوات وتأسيساً سياقياً.
  • ARC و MMLU: دقة عالية في مجالات المعرفة العامة والمهنية.

وعلى الرغم من أنه لا يتجاوز أحدث نماذج 7 مليارات و 13 مليار معامل في كل معيار، إلا أن نسبة الأداء إلى المعاملات في SmolLM3 تظل واحدة من أعلى النسب في فئته.

حالات الاستخدام والتطبيقات

يُعد SmolLM3 مناسبًا بشكل خاص لما يلي:

  • عمليات نشر الذكاء الاصطناعي متعددة اللغات منخفضة التكلفة في روبوتات الدردشة، وأنظمة خدمة العملاء، وملخصات المستندات.
  • أنظمة استرجاع المعلومات الخفيفة التي تستفيد من فهم السياق الطويل.
  • وكلاء مُعززون بالأدوات يتطلبون الالتزام بالنماذج واستدعاء الأدوات الحتمي.
  • عمليات النشر على الأجهزة الطرفية والبيئات الخاصة حيث تكون النماذج الأصغر ضرورية بسبب قيود الأجهزة أو خصوصية البيانات.

الخاتمة

يُجسّد SmolLM3 جيلاً جديداً من نماذج اللغة الصغيرة والفعّالة. ويُمثل مزيجه من الدعم متعدد اللغات، ومعالجة السياق الطويل، والاستدلال القوي – كل ذلك ضمن مساحة 3 مليارات معامل – خطوة كبيرة إلى الأمام في كفاءة النماذج وإمكانية الوصول إليها. ويُظهر إصدار هوجينغ فيس أنه مع وصفة التدريب المناسبة والتصميم المعماري المناسب، لا تزال النماذج الأصغر حجماً قادرة على تقديم أداء قوي في المهام المعقدة التي كانت محفوظة تقليديًا للنماذج اللغوية الكبيرة الأكبر حجماً.

المصدر: MarkTechPost