تسريع نماذج اللغات الضخمة القائمة على الانتشار: إطار عمل Fast-dLLM من NVIDIA

تُعد نماذج اللغات الضخمة (LLMs) القائمة على تقنية الانتشار بديلاً واعداً للنماذج التلقائية التراجعية التقليدية، حيث تُتيح إمكانية توليد العديد من الرموز في وقت واحد. وتهدف هذه النماذج، من خلال استخدام آليات الاهتمام الثنائية الاتجاه، إلى تسريع عملية فك التشفير، مما يوفر نظرياً استنتاجاً أسرع من الأنظمة التلقائية التراجعية.

التحديات التي تواجه نماذج اللغات الضخمة القائمة على الانتشار

على الرغم من الوعود التي تحملها نماذج الانتشار، إلا أنها غالباً ما تعاني عملياً من صعوبة تحقيق سرعات استنتاج تنافسية، مما يحد من قدرتها على مطابقة الأداء العملي لنماذج اللغات الضخمة التلقائية التراجعية. يكمن التحدي الرئيسي في عدم كفاءة الاستنتاج في نماذج اللغات الضخمة القائمة على الانتشار. فهذه النماذج لا تدعم عادةً آليات تخزين المفتاح والقيمة (KV cache)، وهي أساسية لتسريع الاستنتاج من خلال إعادة استخدام حالات الاهتمام المحسوبة سابقاً. بدون تخزين المفتاح والقيمة، تُكرر كل خطوة توليد جديدة في نماذج الانتشار عمليات الاهتمام الكاملة، مما يجعلها مكثفة من الناحية الحسابية.

علاوة على ذلك، عند فك تشفير العديد من الرموز في وقت واحد – وهي ميزة رئيسية لنماذج الانتشار – غالباً ما تتدهور جودة التوليد بسبب اضطرابات في تبعيات الرموز تحت افتراض الاستقلال الشرطي. وهذا يجعل نماذج الانتشار غير موثوقة للنشر العملي على الرغم من نقاط قوتها النظرية.

المحاولات السابقة لتحسين نماذج اللغات الضخمة القائمة على الانتشار

ركزت المحاولات السابقة لتحسين نماذج اللغات الضخمة القائمة على الانتشار على استراتيجيات مثل التوليد على شكل كتل والتخزين المؤقت الجزئي. على سبيل المثال، تتضمن نماذج مثل LLaDA و Dream تقنيات انتشار مُقَنّعة لتسهيل توليد العديد من الرموز. ومع ذلك، لا تزال تفتقر إلى نظام تخزين مفتاح وقيمة (KV cache) فعال، وغالبًا ما يؤدي فك التشفير المتوازي في هذه النماذج إلى نتائج غير متماسكة. بينما تستخدم بعض الأساليب نماذج مساعدة لتقريب تبعيات الرموز، إلا أن هذه الأساليب تُضيف تعقيداً إضافياً دون معالجة مشاكل الأداء الأساسية بشكل كامل. ونتيجة لذلك، لا تزال سرعة وجودة التوليد في نماذج اللغات الضخمة القائمة على الانتشار متأخرة عن النماذج التلقائية التراجعية.

Fast-dLLM: إطار عمل جديد من NVIDIA

قدم باحثون من NVIDIA وجامعة هونغ كونغ ومعهد ماساتشوستس للتكنولوجيا (MIT) إطار عمل Fast-dLLM، الذي تم تطويره لمعالجة هذه القيود دون الحاجة إلى إعادة التدريب. يُقدم Fast-dLLM ابتكارين لنماذج اللغات الضخمة القائمة على الانتشار: آلية تخزين مؤقت تقريبية للمفتاح والقيمة على شكل كتل، واستراتيجية فك تشفير متوازي تعتمد على الثقة.

آلية تخزين المفتاح والقيمة (KV Cache)

تم تصميم تخزين المفتاح والقيمة التقريبي خصيصاً للطبيعة الثنائية الاتجاه لنماذج الانتشار، مما يسمح بإعادة استخدام التنشيطات من خطوات فك التشفير السابقة بكفاءة. يتم تنفيذ طريقة تخزين المفتاح والقيمة في Fast-dLLM عن طريق تقسيم التسلسلات إلى كتل. قبل توليد كتلة، يتم حساب وحفظ تنشيطات المفتاح والقيمة للكتل الأخرى، مما يُمكّن من إعادة استخدامها خلال خطوات فك التشفير اللاحقة. بعد توليد كتلة، يتم تحديث ذاكرة التخزين المؤقت عبر جميع الرموز، مما يقلل من تكرار الحساب مع الحفاظ على الدقة. يُوسّع إصدار DualCache هذا النهج من خلال تخزين كل من رموز البادئة واللاحقة، مستفيداً من التشابه العالي بين خطوات الاستنتاج المتجاورة، كما هو موضح في خرائط الحرارة للتشابه الكوني في الورقة البحثية.

استراتيجية فك التشفير المتوازي

تقوم مكوّنة فك التشفير المتوازي بتقييم ثقة كل رمز وفك تشفير تلك التي تتجاوز عتبة مُحددة فقط. يمنع هذا انتهاكات التبعية من أخذ العينات المتزامنة ويضمن توليداً عالي الجودة حتى عند فك تشفير العديد من الرموز في خطوة واحدة.

نتائج الأداء

حقق Fast-dLLM تحسينات كبيرة في الأداء في اختبارات المقاييس المعيارية. على سبيل المثال، على مجموعة بيانات GSM8K، حقق تسريعاً بمقدار 27.6 مرة مقارنة بنماذج الأساس في تكوينات 8-shot بطول توليد 1024 رمز، مع دقة 76.0٪. على مقياس MATH، تم تحقيق تسريع بمقدار 6.5 مرة مع دقة حوالي 39.3٪. شهد مقياس HumanEval تسارعاً يصل إلى 3.2 مرة مع الحفاظ على الدقة عند 54.3٪، بينما على MBPP، حقق النظام تسريعاً بمقدار 7.8 مرة بطول توليد 512 رمز. في جميع المهام والنماذج، ظلت الدقة ضمن 1-2 نقطة من النموذج الأساسي، مما يدل على أن تسريع Fast-dLLM لا يُقلل بشكل كبير من جودة الإخراج.

الخلاصة

عالج فريق البحث بفعالية نقاط الاختناق الأساسية في نماذج اللغات الضخمة القائمة على الانتشار من خلال إدخال استراتيجية تخزين مؤقت جديدة وآلية فك تشفير تعتمد على الثقة. من خلال معالجة عدم كفاءة الاستنتاج وتحسين جودة فك التشفير، يُظهر Fast-dLLM كيف يمكن لنماذج اللغات الضخمة القائمة على الانتشار أن تقترب من أو حتى تتجاوز النماذج التلقائية التراجعية من حيث السرعة مع الحفاظ على دقة عالية، مما يجعلها قابلة للتطبيق في تطبيقات توليد اللغة في العالم الحقيقي. يمكنكم الاطلاع على الورقة البحثية وصفحة المشروع.

المصدر: MarkTechPost