محسنّ الاستنتاج: أداة مفتوحة المصدر لقياس أداء نماذج اللغات الكبيرة وتحسينها

أعلنت شركة BentoML مؤخراً عن إطلاقها لأداة llm-optimizer، وهي إطار عمل مفتوح المصدر مصمم لتبسيط عملية قياس الأداء وضبطه لنماذج اللغات الكبيرة (LLMs) المُستضافة ذاتيًا. تُعالج هذه الأداة تحديًا شائعًا في نشر نماذج LLMs، ألا وهو إيجاد التكوينات المثالية للكفاءة، وسرعة المعالجة، والتكلفة، دون الاعتماد على التجارب والخطأ اليدوية.

تحديات ضبط أداء نماذج LLMs

يُعتبر ضبط استنتاج نماذج LLMs عملية دقيقة تتطلب الموازنة بين العديد من العوامل المتغيرة، مثل:

  • حجم الدُفعات (Batch Size): عدد الاستفسارات التي تُعالج في نفس الوقت.
  • إطار العمل (Framework): مثل vLLM و SGLang وغيرها.
  • التوازي المُعتمد على المُوتر (Tensor Parallelism): تقسيم عملية الحساب على مُعالجات متعددة.
  • أطوال المتواليات (Sequence Lengths): طول المدخلات النصية التي تُعالجها النماذج.
  • استخدام الموارد الحاسوبية (Hardware Utilization): مدى فعالية استخدام وحدة معالجة الرسوميات (GPU).

يؤثر كل من هذه العوامل على الأداء بطرق مختلفة، مما يجعل إيجاد المزيج الأمثل للسرعة والكفاءة والتكلفة أمرًا صعبًا. لا تزال معظم الفرق تعتمد على التجارب والخطأ المتكررة، وهي عملية بطيئة وغير متسقة، وغالبًا ما تكون غير حاسمة. وفي عمليات النشر المُستضافة ذاتيًا، تكون تكلفة الخطأ مرتفعة، حيث يمكن أن تؤدي التكوينات المُضبوطة بشكل سيئ إلى زيادة زمن الانتظار وهدر موارد وحدة معالجة الرسوميات.

مميزات أداة llm-optimizer

تُقدم llm-optimizer طريقة مُنظمّة لاستكشاف إمكانات أداء نماذج LLMs. فهي تقضي على التخمينات المتكررة من خلال تمكين القياس المنهجي والبحث الآلي عبر التكوينات الممكنة. وتشمل إمكانياتها الأساسية:

  • تشغيل اختبارات مُعيارية عبر أطر عمل الاستنتاج: مثل vLLM و SGLang.
  • ضبط مُقيد بالقيود: على سبيل المثال، عرض التكوينات التي يكون فيها وقت الحصول على أول رمز (Time-to-First-Token) أقل من 200 مللي ثانية.
  • أتمتة عمليات البحث عن المعلمات: لتحديد الإعدادات المثلى.
  • تصور التوازنات بين العوامل المختلفة: من خلال لوحات تحكم تُظهر زمن الانتظار، وسرعة المعالجة، واستخدام وحدة معالجة الرسوميات.

يُعد الإطار مفتوح المصدر ومتوفر على GitHub.

استكشاف النتائج دون تشغيل اختبارات محلية

إلى جانب مُحسّن الأداء، أطلقت BentoML أداة “مستكشف أداء نماذج LLMs” (LLM Performance Explorer)، وهي واجهة مستخدم قائمة على المتصفح تعمل بواسطة llm-optimizer. توفر هذه الأداة بيانات قياس مُسبقة الحساب لنماذج مفتوحة المصدر شائعة، وتسمح للمستخدمين بـ:

  • مقارنة أطر العمل والتكوينات جنبًا إلى جنب.
  • التصفية حسب زمن الانتظار، أو سرعة المعالجة، أو عتبات الموارد.
  • تصفح التوازنات بين العوامل تفاعليًا دون الحاجة لتوفير موارد حاسوبية.

أثر llm-optimizer على ممارسات نشر نماذج LLMs

مع تزايد استخدام نماذج LLMs، يعتمد الحصول على أقصى استفادة من عمليات النشر على مدى جودة ضبط معلمات الاستنتاج. تُقلل llm-optimizer من تعقيد هذه العملية، مما يمنح الفرق الصغيرة إمكانية الوصول إلى تقنيات التحسين التي كانت تتطلب سابقًا بنية تحتية واسعة النطاق وخبرة عميقة. من خلال توفير مقاييس مُعيارية ونتائج قابلة للتكرار، يضيف الإطار شفافية مُلحة إلى مجال نماذج LLMs. كما يجعل المقارنات بين النماذج وأطر العمل أكثر اتساقًا، مما يُسدّ ثغرة قائمة منذ فترة طويلة في المجتمع. في النهاية، تُقدم llm-optimizer من BentoML طريقة مُقيدة بالقيود ومركزة على القياس للتحسين المُستضاف ذاتيًا لنماذج LLMs، حيث تُستبدل التجارب والخطأ العشوائية بمسار عمل منهجي وقابل للتكرار.

رابط صفحة GitHub

المصدر: MarkTechPost