تحسين أداء نماذج اللغات الكبيرة: تقنية توفير الذاكرة الديناميكية من NVIDIA
مع تزايد الطلب على المهام التي تتطلب قدرات استنتاجية عالية، أصبح من المتوقع أن تُنتج نماذج اللغات الكبيرة (LLMs) متواليات أطول أو سلاسل استنتاجية متوازية. ومع ذلك، فإن أداء الاستنتاج يقتصر بشدة على مساحة ذاكرة تخزين مؤقت المفتاح-القيمة (KV Cache)، وليس فقط على عدد الرموز المُنتجة. في ورقة بحثية حديثة، يُقدم باحثون من NVIDIA وجامعة إدنبرة تقنية توفير الذاكرة الديناميكية (DMS)، وهي طريقة فعالة من حيث البيانات وسهلة التكييف مع النماذج القائمة، تعمل على ضغط ذاكرة التخزين المؤقت KV وتُمكن من زيادة حجم الاستنتاج دون التأثير على دقة النموذج.
مُعوّق الأداء: ذاكرة التخزين المؤقت KV في استنتاج المُحوّلات
تستخدم نماذج تعتمد على آلية المُحوّلات، مثل GPT وLLaMA وQwen، ذاكرة التخزين المؤقت KV لتخزين تمثيلات الرموز السابقة من أجل توليد ذاتي التكرار. تنمو هذه الذاكرة خطيًا مع طول المتوالية وعرضها (الخيوط المتوازية)، مما يُستهلك كميات كبيرة من ذاكرة وحدة معالجة الرسومات (GPU) ويؤدي إلى تباطؤ الاستنتاج بسبب الوصول المتكرر للذاكرة.
التقنيات الحالية: قصورها وتحدياتها
تعتمد التقنيات الحالية لتحسين ذاكرة التخزين المؤقت KV إما على نهج بديهية بدون تدريب، مثل استبعاد الرموز بناءً على أوزان الانتباه، أو تتطلب تعديلات مكلفة بعد التدريب، مثل ضغط الذاكرة الديناميكية (DMC). كلا النهجين له عيوب كبيرة: الأول يُؤثر سلبًا على الدقة، والثاني مكلف حسابيًا.
تقنية توفير الذاكرة الديناميكية (DMS): الضغط بدون تنازلات
تُعالج تقنية توفير الذاكرة الديناميكية (DMS) هذه القيود من خلال نهج هجين: فهي تُخلخل ذاكرة التخزين المؤقت KV مثل أساليب التقليم التقليدية، ولكن مع الحد الأدنى من تكلفة التدريب (~1000 خطوة) واستبعاد مؤجل، والذي يُبقي الرموز مؤقتًا بعد وضع علامة لإزالتها. يُحافظ هذا التصميم على معلومات السياق المهمة ويُجنب الانخفاض المفاجئ في الدقة.
تتمثل الفكرة الأساسية في جعل قرارات الاستبعاد قابلة للتفاضل أثناء التدريب باستخدام آلية أخذ عينات تعتمد على دالة Gumbel-sigmoid. تظل الرموز المُتوقع استبعادها في المستقبل قابلة للاستخدام لفترة زمنية قابلة للتعديل قبل التخلص منها، مما يسمح للنموذج بامتصاص قيمتها المعلوماتية بشكل أكثر فعالية.
التكييف الفعال مع الحد الأدنى من البيانات
على عكس DMC، الذي يتطلب آلاف خطوات التدريب وتحسينًا قائمًا على التدرج المعقد، لا تُضيف DMS أي معلمات إضافية لكل رأس انتباه. فهي تعيد استخدام جزء صغير من آلية الانتباه (عصبون واحد) للتنبؤ بالاستبعاد. هذا يجعل DMS مثالية لإعادة تجهيز النماذج الحالية دون تغييرات معمارية.
تُظهر النتائج التجريبية أنه مع أقل من 1000 خطوة تدريب، يمكن أن تحقق DMS ضغطًا لذاكرة التخزين المؤقت KV بمقدار 8 أضعاف، مع الحفاظ على أداء النموذج أو حتى تحسينه في مهام الاستنتاج.
نتائج المقاييس: زيادة الأداء دون زيادة التكلفة
اختبر فريق البحث DMS على معايير تعتمد على الاستنتاج مثل:
- AIME 2024 (الرياضيات المتقدمة)
- MATH 500 (حل المسائل الرياضية)
- GPQA Diamond (أسئلة وأجوبة في العلوم الصعبة)
- LiveCodeBench (توليد التعليمات البرمجية)
عبر أحجام النماذج المختلفة — Qwen-R1 1.5B و 7B و 32B — حسّنت DMS أداء المطابقة الدقيقة بنسبة 9.1 نقطة على AIME، و 7.6 نقطة على GPQA، و 9.6 نقطة على LiveCodeBench، كل ذلك ضمن نفس ميزانيات الذاكرة والحساب. عند مقارنتها بأفضل النماذج المرجعية مثل Quest وTOVA، تفوقت DMS باستمرار في كفاءة قراءة ذاكرة التخزين المؤقت KV (وكيل وقت التشغيل) واستخدام الذاكرة الأقصى، محققة حدود باريتو أفضل.
فائدة عامة
تُظهر DMS أيضًا قدرة عالية في المهام غير المتعلقة بالاستنتاج. في معايير السياق القصير مثل MMLU وGSM8K وHellaSwag، حافظت DMS على الأداء بنسب ضغط تصل إلى 4 أضعاف مع انخفاض طفيف (~3.5 نقطة). في مهام السياق الطويل مثل Needle-in-a-Haystack وVariable Tracking، تجاوزت DMS حتى النماذج الأصلية، مما يُشير إلى إمكاناتها في التخفيف من مشاكل مثل ضغط المعلومات الزائد في المتواليات الطويلة.
الخلاصة
في الختام، تُقدم تقنية توفير الذاكرة الديناميكية (DMS) حلاً عمليًا وقابلًا للتطوير لتعزيز كفاءة وقت الاستنتاج لنماذج اللغات القائمة على المُحوّلات. من خلال ضغط ذاكرة التخزين المؤقت KV بذكاء مع الحد الأدنى من إعادة التدريب، تُمكّن DMS النماذج من الاستنتاج على متواليات أطول أو بالتوازي دون زيادة متطلبات وقت التشغيل أو الذاكرة. تُبرز مكاسبها المُتواصلة عبر مجموعة من مهام الاستنتاج والمهام العامة تنوعها وفعاليتها. مع زيادة نشر نماذج اللغات الكبيرة في بيئات محدودة الموارد، تُقدم DMS مسارًا مُقنعًا للمضي قدمًا — موازنة بين الضغط والدقة وسهولة التكامل لأحمال عمل الاستنتاج في العالم الحقيقي.
اترك تعليقاً