تسريع استنتاج نماذج اللغات الضخمة بخمسة أضعاف: حلٌّ مبتكرٌ يتغلب على التشاؤم
في عالم الذكاء الاصطناعي سريع التطور، تُشغّل نماذج اللغات الضخمة (LLMs) مثل GPT-4 و Llama كل شيء، بدءًا من روبوتات الدردشة ووصولاً إلى مساعدي البرمجة. لكن هناك سرًّا مُخبّأ: قد يكون استنتاج نموذج اللغات الضخمة لديك (عملية توليد الردود) أبطأ بخمسة أضعاف مما يجب أن يكون. والسبب؟ نهجٌ شديد الحذر في التعامل مع عدم اليقين في أطوال المخرجات.
الازدحام المُخفي في استنتاج نماذج اللغات الضخمة
لا يقتصر استنتاج نماذج اللغات الضخمة على معالجة الأرقام فحسب؛ بل هو لغزٌ تشغيلي. فعندما يصل مُؤشّر، يعالجه النموذج في مرحلتين: مرحلة “ملء أولي” سريعة للتعامل مع المُدخل، تليها مرحلة “فكّ تشفير” رمزًا تلو الآخر حيث يتم توليد المخرجات بشكل ذاتي التراجع. يُعرف طول المُدخل مسبقًا، لكن طول المخرجات؟ هذا أمرٌ غير مؤكد – فقد يكون “نعم” قصيرة أو مقالًا مطولًا.
يُسبب هذا عدم اليقين فوضى في الجدولة. تعمل نماذج اللغات الضخمة على وحدات معالجة الرسومات (GPUs) التي تتمتع بذاكرة تخزين مؤقت محدودة من نوع (KV) (مفتاح-قيمة)، والتي تخزّن الحسابات الوسيطة لتسريع عملية التوليد. لتجنب الفيضانات، يجب على المُجدولين التنبؤ وتخصيص الذاكرة بحكمة. لكن التنبؤات ليست مثالية؛ غالبًا ما تأتي على شكل فترات (مثل “بين 50 و 500 رمز”) من نماذج التعلم الآلي أو الخوارزميات التجريبية.
الحلّ القياسي؟ كن متحفظًا. تفترض الخوارزميات مثل “Amax” (معيار البحث) أن كل طلب سيصل إلى الحد الأقصى للطول المُتنبأ به. هذا يمنع التعطلات، لكنه يؤدي إلى عدم استخدام موارد هائل: تظل الدُفعات صغيرة، ووحدات معالجة الرسومات خاملة، وتتضخم أوقات الانتظار. في التجارب على مجموعات بيانات حقيقية مثل LMSYS-Chat-1M، تدهورت أداء Amax بشكل حاد مع زيادة عدم اليقين في التنبؤ، مما أدى أحيانًا إلى أوقات انتظار أعلى بخمسة أضعاف من المُثلى.
لماذا يهم هذا الأمر؟ الاستنتاج يستهلك الكثير من الطاقة ومكلف. مع وصول مليارات الطلبات إلى الخدمات يوميًا، حتى الكفاءات الصغيرة تُضاف إلى ملايين من الحسابات المهدرة والمستخدمين المُحبطين.
Amin: المُجدول المتفائل الذي يتعلم أثناء التشغيل
يقترح فريق البحث من جامعة بكين، ستانفورد، وهونغ كونغ، خوارزمية “Amin”، وهي خوارزمية تُغيّر القواعد. بدلاً من الخوف من الأسوأ، يبدأ Amin بتفاؤل: فهو يفترض أن مخرجات كل طلب هي الحد الأدنى للطول المُتنبأ به (الحد الأدنى للفترة). هذا يُعظم أحجام الدُفعات الأولية، ويُعبّئ المزيد من الطلبات في ذاكرة التخزين المؤقت KV على الفور.
لكن التفاؤل وحده قد يُسبب الفيضانات إذا طالت المخرجات. سرّ Amin هو التكيف:
- التحسين الديناميكي: مع توليد الرموز، يُحدّث Amin الحد الأدنى “الزائف” لكل طلب في الوقت الفعلي. إذا أنتج طلب ما، على سبيل المثال، 100 رمز، فإنه يعرف أن الطول الحقيقي هو على الأقل هذا القدر – مما يُحسّن قرارات الجدولة المستقبلية.
- الإخراج المُرتّب: عندما تصبح الذاكرة ضيقة، لا يدخل Amin في حالة ذعر. فهو يُرتّب المهام النشطة حسب حدودها الدنيا الزائفة الحالية ويُخرج تلك التي حققت أقل تقدّم أولاً (مع كسر التعادلات بشكل عشوائي). هذا يحمي المهام التي تقدّمت أكثر، ويُقلّل الهدر من إعادة التشغيل.
- لا حاجة للحدود العليا: والأهم من ذلك، أن Amin يتجاهل الحد الأعلى تمامًا. إن التنبؤ بالحدود العليا الدقيقة أمرٌ صعب ومعرض للخطأ بشكل كبير، لكن الحدود الدنيا أسهل وأكثر موثوقية. هذا يجعل Amin عمليًا للنشر في العالم الحقيقي. تعمل الخوارزمية في وقت O(M log M) لكل خطوة (حيث M هو حجم ذاكرة التخزين المؤقت KV)، مما يجعلها فعالة حتى على الأنظمة الكبيرة.
الإثبات في الأداء: مُقاربٌ للمُثلى وقويّ
ما يميّز Amin ليس الحدس فقط – بل الرياضيات الدقيقة والتجارب. يحلل فريق البحث “نسبة التنافسية” لـ Amin، مُقارنًا وقت الانتظار الخاص به بمُجدول مُثالي (H-SF) يعرف جميع أطوال المخرجات الحقيقية مسبقًا. إنهم يثبتون أن Amin يحقق نسبة O(log(α⁻¹))، حيث α هي نسبة الحد الأدنى إلى الحد الأعلى (مقاس لعدم اليقين في التنبؤ). مع ازدياد عدم اليقين (انكماش α)، تنفجر نسبة Amax بشكل غير محدود – فكّر في O(α⁻¹⁵) في أسوأ الأحوال. يظل Amin لوغاريتميًا، مما يضمن عدم كفاءة محدودة.
الخاتمة
لقد أعاق التشاؤم استنتاج نماذج اللغات الضخمة لفترة طويلة جدًا. من خلال تبني التفاؤل التكيفي، يُظهر Amin أنه يمكننا الحصول على أداء مُقارب للمُثالي من التنبؤات غير المُثالية. مع ازدياد أعباء عمل الذكاء الاصطناعي، ستكون الأدوات مثل هذه ضرورية للتوسّع المُستدام. إذا كنت تقوم ببناء أو نشر نماذج اللغات الضخمة، فراجع الورقة البحثية – إنها قراءة سريعة مع رمز زائف جاهز للتكيّف. قد تحصل خط أنابيب الاستنتاج لديك على زيادة في السرعة بمقدار خمسة أضعاف. ماذا يمنعك؟
الأسئلة الشائعة
-
ما الذي يجعل خوارزمية Amin أسرع من المُجدول المُحافظ القياسي؟ تستفيد Amin من الجدولة المتفائلة: فهي تدّعي في البداية أن مخرجات كل طلب ستكون الحد الأدنى للطول المُتنبأ به، مما يسمح بتعبئة المزيد من المهام في ذاكرة التخزين المؤقت KV لوحدة معالجة الرسومات، مما يُعظم التزامن والإنتاجية. مع تقدّم فك التشفير، يُحدّث Amin الحد الأدنى ديناميكيًا لكل مهمة ويُخرج بذكاء المهام التي حققت أقل تقدّم إذا كانت الذاكرة شحيحة، مما يحقق وقت انتظار مُقارب للمُثالي حتى في ظل عدم اليقين العالي.
-
لماذا يُعد استخدام تنبؤ الحد الأدنى فقط عمليًا للاستنتاج في العالم الحقيقي؟ الحدود الدنيا أسهل وأكثر موثوقية للتنبؤ: تتطلب Amin فقط الحد الأدنى لطول كل مخرجات، متجاوزة الصعوبات الحسابية والإحصائية المرتبطة بالتنبؤ بالحد الأعلى. هذا يجعلها قوية وفعالة للنشر في سيناريوهات الإنتاج حيث يمكن أن تختلف دقة التنبؤ.
-
كيف يُقارن أداء Amin بالجدولة المتشائمة التقليدية؟ تتناسب نسبة التنافسية لـ Amin لوغاريتميًا مع عدم اليقين في التنبؤ: على عكس المُجدولين المُحافظين الذين يصبحون غير فعّالين للغاية مع ازدياد عدم اليقين، تضمن Amin أداءً قويًا مع وقت انتظار أقل بخمسة أضعاف في أعباء العمل الواقعية. غالبًا ما يُطابق أداء مُجدول مُثالي، مما يُنشئ معيارًا جديدًا لكفاءة الاستنتاج في ظل عدم اليقين.





اترك تعليقاً