نماذج Jet-Nemotron: ثورة في كفاءة نماذج اللغات الكبيرة
أحدث باحثو NVIDIA نقلة نوعية في مجال كفاءة الاستدلال في نماذج اللغات الكبيرة (LLMs)، وذلك بإطلاقهم عائلة نماذج Jet-Nemotron (2 مليار و 4 مليار معلمة). تتميز هذه النماذج بقدرتها على تحقيق سرعة إنتاج النصوص أعلى بـ 53.6 مرة من نماذج الـ LLMs الرائدة التي تعتمد على آلية الاهتمام الكاملة (Full-attention)، مع تحقيق دقة مماثلة أو حتى أعلى. والأهم من ذلك، أن هذا الإنجاز لم يتحقق من خلال تدريب نماذج جديدة من الصفر، بل من خلال إعادة تجهيز نماذج مُدرّبة مسبقاً باستخدام تقنية مبتكرة تسمى “بحث ما بعد الهندسة العصبية” (PostNAS). تُحدث هذه التقنية تحولاً جذرياً للشركات، والممارسين، والباحثين على حد سواء.
الحاجة إلى السرعة في نماذج اللغات الكبيرة الحديثة
على الرغم من أن نماذج اللغات الكبيرة الحديثة، مثل Qwen3 و Llama3.2 و Gemma3، قد وضعت معايير جديدة للدقة والمرونة، إلا أن آلية الاهتمام الذاتية O(n²) الخاصة بها تتسبب في تكاليف باهظة من حيث الحوسبة والذاكرة، خاصةً في المهام التي تتطلب سياقات طويلة. هذا يجعل نشرها على نطاق واسع مكلفاً، ويجعل تشغيلها على الأجهزة الطرفية أو الأجهزة ذات الذاكرة المحدودة أمراً شبه مستحيل. وقد واجهت الجهود المبذولة لاستبدال محولات الاهتمام الكاملة بهندسات أكثر كفاءة (مثل Mamba2، GLA، RWKV، إلخ) صعوبة في سد فجوة الدقة، حتى الآن.
PostNAS: إعادة هيكلة فعالة من حيث التكلفة
تكمن الابتكار الأساسي في تقنية PostNAS: وهي خط أنابيب لبحث الهندسة العصبية مصممة خصيصاً لإعادة تجهيز النماذج المُدرّبة مسبقاً بكفاءة عالية. إليك كيفية عملها:
- تثبيت المعرفة: تبدأ العملية بنموذج اهتمام كامل متطور (مثل Qwen2.5). يتم تثبيت طبقات MLP الخاصة به، مما يحافظ على ذكاء النموذج المُتعلم ويقلل بشكل كبير من تكلفة التدريب.
- الاستبدال الدقيق: يتم استبدال آلية الاهتمام الكاملة (محولات Transformers) المكلفة حسابياً بـ JetBlock، وهي وحدة اهتمام خطية جديدة فعالة من حيث الأجهزة، ومصممة خصيصاً لوحدات معالجة الرسوميات NVIDIA الحديثة.
- تصميم هجين واعي للأجهزة: يتم استخدام تدريب الشبكات الفائقة (super-network training) وبحث الحزمة (beam search) لتحديد الموقع الأمثل والحد الأدنى من طبقات الاهتمام الكاملة اللازمة للحفاظ على الدقة في المهام الرئيسية (استرجاع المعلومات، الرياضيات، MMLU، البرمجة، إلخ). هذه الخطوة خاصة بالمهمة وواعية للأجهزة: حيث يركز البحث على زيادة الإنتاجية لأجهزة الهدف، وليس فقط عدد المعلمات.
- التوسع والنشر: والنتيجة هي نموذج LLM بهندسة هجينة يرث ذكاء العمود الفقري للنموذج الأصلي، ولكنه يقلل من زمن الوصول واستهلاك الذاكرة بشكل كبير. يُعد JetBlock جديرًا بالذكر بشكل خاص: حيث يُدخِل نوى التفاف سببية ديناميكية مشروطة بالمدخلات (على عكس النوى الثابتة في كتل الاهتمام الخطية السابقة)، ويزيل الالتفافات الزائدة لتحقيق كفاءة مُحسّنة. مع البحث عن المعلمات الفائقة واعي للأجهزة، لا يقتصر الأمر على مواكبة تصاميم الاهتمام الخطية السابقة في الإنتاجية، بل إنه يعزز الدقة أيضاً.
Jet-Nemotron: الأداء بالأرقام
المقاييس الرئيسية من ورقة NVIDIA التقنية مذهلة:
| النموذج | دقة MMLU-Pro | إنتاجية النصوص (رموز/ثانية، H100) | حجم ذاكرة التخزين المؤقت KV (ميغابايت، سياق 64K) | ملاحظات |
|---|---|---|---|---|
| Qwen3-1.7B-Base | 37.86 | 17,168 | 7,168 | خط أساس الاهتمام الكامل |
| Jet-Nemotron-2B | 39.02 | 885 | 154 | زيادة الإنتاجية 47 مرة، ذاكرة أصغر 47 مرة |
| Jet-Nemotron-4B | 44.2 | 1,271 | 258 | زيادة الإنتاجية 21 مرة، دقة متقدمة |
| Mamba2-2.7B | 8.6 | 2,507 | 80 | خطي بالكامل، دقة أقل بكثير |
| RWKV7-1.5B | 13.4 | 3,050 | 24 | خطي بالكامل، دقة أقل بكثير |
| DeepSeek-V3-Small (MoE) | ——— | ——— | ——— | 2.2 مليار معلمة نشطة، 15 مليار معلمة إجمالية، دقة أقل |
يتطابق Jet-Nemotron-2B أو يتجاوز Qwen3-1.7B-Base في جميع المعايير الرئيسية – الرياضيات، والفطنة، والبرمجة، واسترجاع المعلومات، والسياقات الطويلة – مع توفير سرعة إنتاجية أعلى بـ 47 مرة. هذه ليست زيادة طفيفة: فزيادة السرعة بـ 53.6 مرة في فك التشفير بطول سياق 256 كيلوبايت تعني انخفاض تكلفة الاستدلال بنسبة 98% لنفس حجم الرموز. كما أن سرعات التعبئة المسبقة مذهلة: أسرع بـ 6.14 مرة عند سياق 256 كيلوبايت. كما أن حجم الذاكرة يتقلص بنسبة 47 مرة (154 ميجابايت مقابل 7168 ميجابايت لـ Qwen3-1.7B-Base). هذا يُحدث تغييراً جذرياً في نشر الأجهزة الطرفية: Jet-Nemotron-2B أسرع بـ 8.84 مرة و 6.5 مرة من Qwen2.5-1.5B على Jetson Orin و RTX 3090، على التوالي.
تطبيقات Jet-Nemotron
- لقادة الأعمال: عائد استثمار أفضل. زيادة الإنتاجية بـ 53 مرة تعني أنه يمكنك من الناحية العملية خدمة عدد مستخدمين أكبر بـ 53 مرة، أو خفض تكاليف الاستضافة بنسبة 98%. تتحول الكفاءة التشغيلية: ينخفض زمن الوصول، وتزداد أحجام الدُفعات، وتختفي قيود الذاكرة. يمكن لمقدمي الخدمات السحابية تقديم تقنية الذكاء الاصطناعي المتقدمة بأسعار مناسبة. يُعيد نموذج أعمال الذكاء الاصطناعي تشكيله: المهام التي كانت مكلفة للغاية (مثل معالجة المستندات في الوقت الفعلي، والوكلاء ذوي السياقات الطويلة، والمساعدين الشخصيين على الأجهزة) تصبح ممكنة فجأة.
- للممارسين: تقنية متطورة على الأجهزة الطرفية. انسَ التنازلات المتعلقة بالكمية أو التقطير أو التقليم. تناسب ذاكرة التخزين المؤقت KV الصغيرة (154 ميجابايت) و 2 مليار معلمة لـ Jet-Nemotron على Jetson Orin و RTX 3090 وحتى الرقائق المحمولة – لم يعد هناك حاجة لنقل البيانات إلى السحابة. لا يوجد تدريب مُجدد، ولا تغييرات في خط أنابيب البيانات: فقط إعادة تجهيز. يمكن ترقية نقاط تفتيش Qwen و Llama أو Gemma الموجودة لديك دون فقدان الدقة. أصبحت خدمات الذكاء الاصطناعي في العالم الحقيقي (البحث، والمساعدين الشخصيين، والتلخيص، والبرمجة) فورية وقابلة للتطوير.
- للباحثين: عائق أقل، ابتكار أعلى. تُقلل PostNAS من تكلفة ابتكار هندسة نماذج LLM. بدلاً من شهور وملايين الدولارات في التدريب المسبق، يحدث بحث الهندسة على نماذج العمود الفقري المثبتة في جزء صغير من الوقت. بحث الهندسة العصبية واعي للأجهزة هو المستقبل: تأخذ عملية Jet-Nemotron حجم ذاكرة التخزين المؤقت KV (وليس فقط المعلمات) بعين الاعتبار كعامل حاسم للسرعة في العالم الحقيقي. هذا تحول جذري في كيفية قياس وكفاءة التحسين. يمكن للمجتمع التطور بشكل أسرع: PostNAS هي منصة اختبار سريعة. إذا نجحت وحدة اهتمام جديدة هنا، فهي تستحق التدريب المسبق؛ وإذا لم تنجح، يتم تصفيتها قبل الإنفاق الكبير.
الخلاصة
يعني إصدار Jet-Nemotron و JetBlock مفتوح المصدر (الكود متوفر على GitHub) أن النظام البيئي الأوسع للذكاء الاصطناعي يمكنه الآن إعادة تجهيز نماذجه لتحقيق كفاءة غير مسبوقة. PostNAS ليست خدعة لمرة واحدة: إنها إطار عمل عام لتسريع أي محوّل، وخفض تكلفة الاختراقات المستقبلية.





اترك تعليقاً