قوانين تحجيم فعّالة لتدريب نماذج اللغات الضخمة وتحقيق أقصى استفادة من الميزانية
يهدف الباحثون عند بناء نماذج اللغات الضخمة (LLMs) إلى تحقيق أقصى أداء ممكن ضمن ميزانية حاسوبية ومالية محددة. ونظرًا لأن تدريب مثل هذه النماذج قد يكلف ملايين الدولارات، يتعين على المطورين اتخاذ قرارات مدروسة فيما يتعلق بالتكاليف، مثل بنية النموذج، وخوارزميات التحسين، ومجموعات البيانات التدريبية، قبل الالتزام بإنشاء نموذج معين. وللتنبؤ بجودة ودقة تنبؤات النموذج الضخم، يلجأ الممارسون غالبًا إلى قوانين التحجيم: باستخدام نماذج أصغر وأقل تكلفة لمحاولة تقريب أداء نموذج الهدف الأكبر. إلا أن التحدي يكمن في وجود آلاف الطرق لإنشاء قانون تحجيم.
دراسة جديدة من معهد ماساتشوستس للتكنولوجيا ومعمل MIT-IBM Watson للذكاء الاصطناعي
تتناول دراسة جديدة من باحثي معهد ماساتشوستس للتكنولوجيا ومعمل MIT-IBM Watson للذكاء الاصطناعي هذه المشكلة من خلال تجميع وإصدار مجموعة تضم مئات النماذج والمقاييس المتعلقة بالتدريب والأداء لتقريب أكثر من ألف قانون تحجيم. وقد قام الفريق، بناءً على ذلك، بتطوير تحليل استعراضي ودليل لاختيار النماذج الصغيرة وتقدير قوانين التحجيم لعائلات نماذج LLM المختلفة، بحيث يتم تخصيص الميزانية بشكل مثالي لتوليد تنبؤات أداء موثوقة.
يقول جاكوب أندرياس، الأستاذ المساعد في قسم الهندسة الكهربائية وعلوم الكمبيوتر والباحث الرئيسي في معمل MIT-IBM Watson للذكاء الاصطناعي: “إن فكرة محاولة بناء نماذج رياضية لعملية التدريب موجودة منذ عامين تقريبًا، لكن أعتقد أن الجديد هنا هو أن معظم الأعمال التي قام بها الناس سابقًا كانت تقول: ‘هل يمكننا قول شيء لاحقًا حول ما حدث عندما دربنا جميع هذه النماذج، حتى نتمكن، عندما نحاول معرفة كيفية تدريب نموذج جديد واسع النطاق، من اتخاذ أفضل القرارات حول كيفية استخدام ميزانية الحوسبة الخاصة بنا؟’”.
تم تقديم هذا البحث مؤخرًا في المؤتمر الدولي لتعلم الآلة من قبل أندرياس، بالإضافة إلى الباحثين في معمل MIT-IBM Watson للذكاء الاصطناعي، ليشيم كوشن ويانغ زانغ من مختبرات IBM للأبحاث.
تحديات تطوير نماذج اللغات الضخمة وتأثير قوانين التحجيم
مهما كانت الطريقة، فإن تطوير نماذج اللغات الضخمة هو مسعى مكلف: بدءًا من اتخاذ القرارات المتعلقة بعدد المعلمات والرموز، واختيار حجم البيانات، وتقنيات التدريب، وصولًا إلى تحديد دقة الإخراج والضبط وفقًا للتطبيقات والمهام المستهدفة. تقدم قوانين التحجيم طريقة للتنبؤ بسلوك النموذج من خلال ربط خسارة النموذج الكبير بأداء نماذج أصغر وأقل تكلفة من نفس العائلة، مما يتجنب الحاجة إلى تدريب كل مرشح بالكامل. ويتمثل الاختلاف الرئيسي بين النماذج الأصغر في عدد المعلمات وحجم تدريب الرموز. ووفقًا لكوشن، فإن توضيح قوانين التحجيم لا يمكّن فقط من اتخاذ قرارات تدريب أفضل، بل يُديم المجال أيضًا من خلال تمكين الباحثين الذين لا يمتلكون موارد ضخمة من فهم وبناء قوانين تحجيم فعالة.
الشكل الوظيفي لقوانين التحجيم بسيط نسبيًا، حيث يتضمن مكونات من النماذج الصغيرة التي تُظهر عدد المعلمات وتأثيرها على التحجيم، وعدد رموز التدريب وتأثيرها على التحجيم، والأداء الأساسي لعائلة النماذج محل الاهتمام. معًا، تساعد هذه المكونات الباحثين على تقدير خسارة أداء نموذج الهدف الكبير؛ وكلما صغرت الخسارة، زادت احتمالية جودة مخرجات نموذج الهدف.
تسمح هذه القوانين لفِرَق البحث بتقييم التبادلات التجارية بكفاءة واختبار أفضل طريقة لتخصيص الموارد المحدودة. إنها مفيدة بشكل خاص لتقييم تحجيم متغير معين، مثل عدد الرموز، و لاختبار A/B لإعدادات التدريب المسبق المختلفة.
بشكل عام، ليست قوانين التحجيم جديدة؛ ومع ذلك، في مجال الذكاء الاصطناعي، ظهرت مع نمو النماذج وارتفاع التكاليف بشكل كبير. يقول كوشن: “إنه مثل قوانين التحجيم التي ظهرت في مرحلة ما في هذا المجال. لقد بدأت تجذب الانتباه، لكن لم يختبر أحد مدى جودتها وما يلزم فعله لإنشاء قانون تحجيم جيد”. علاوة على ذلك، كانت قوانين التحجيم نفسها بمثابة صندوق أسود، في واقع الأمر. يقول أندرياس: “كلما أنشأ الناس قوانين تحجيم في الماضي، كان ذلك دائمًا نموذجًا واحدًا، أو عائلة نماذج واحدة، ومجموعة بيانات واحدة، ومطور واحد. لم يكن هناك الكثير من التحليل الاستعراضي المنهجي، حيث يقوم الجميع بتدريب قوانين التحجيم الخاصة بهم بشكل فردي. لذا، [أردنا أن نعرف]: هل هناك اتجاهات عليا ترونها عبر هذه الأشياء؟”.
بناء قاعدة بيانات ضخمة لتحليل قوانين التحجيم
لبحث هذا الأمر، أنشأ كوشن وأندرياس وزانغ مجموعة بيانات ضخمة. قاموا بجمع نماذج LLMs من 40 عائلة نماذج، بما في ذلك Pythia وOPT وOLMO وLLaMA وBloom وT5-Pile وModuleFormer mixture-of-experts وGPT وعائلات أخرى. وقد تضمنت هذه المجموعة 485 نموذجًا فريدًا مدربًا مسبقًا، بالإضافة إلى بيانات حول نقاط تفتيش التدريب الخاصة بها، والتكلفة الحسابية (FLOPs)، وعصور التدريب، والبذرة، بالإضافة إلى 1.9 مليون مقياس أداء للخسارة والمهام اللاحقة. اختلفت النماذج في بنيتها ووزنها وما إلى ذلك. باستخدام هذه النماذج، قام الباحثون بتجهيز أكثر من 1000 قانون تحجيم وقارنوا دقتها عبر البنى المعمارية وأحجام النماذج وأنظم التدريب، بالإضافة إلى اختبار كيفية تأثير عدد النماذج، ودمج نقاط تفتيش التدريب الوسيطة، والتدريب الجزئي على القوة التنبؤية لقوانين التحجيم لنماذج الهدف. استخدموا قياسات الخطأ النسبي المطلق (ARE)؛ وهو الفرق بين تنبؤ قانون التحجيم والخسارة المرصودة لنموذج كبير مدرب. وبناءً على ذلك، قارن الفريق قوانين التحجيم، وبعد التحليل، استخلص توصيات عملية لممارسي الذكاء الاصطناعي حول ما يجعل قوانين التحجيم فعالة.
توصيات عملية لبناء قوانين تحجيم فعالة
توجّه إرشاداتهم المشتركة المطور عبر الخطوات والخيارات التي يجب مراعاتها والتوقعات. أولاً، من الضروري تحديد ميزانية الحوسبة ودقة نموذج الهدف. وجد الفريق أن 4٪ من ARE هي أفضل دقة يمكن تحقيقها تقريبًا بسبب ضجيج بذرة عشوائية، لكن ما يصل إلى 20٪ من ARE لا يزال مفيدًا لاتخاذ القرارات. حدد الباحثون العديد من العوامل التي تحسن التنبؤات، مثل تضمين نقاط تفتيش التدريب الوسيطة، بدلاً من الاعتماد فقط على الخسائر النهائية؛ مما جعل قوانين التحجيم أكثر موثوقية. ومع ذلك، فإن بيانات التدريب المبكرة جدًا قبل 10 مليارات رمز تكون ضعيفة، وتقلل من الدقة، ويجب التخلص منها. يُوصون بإعطاء الأولوية لتدريب المزيد من النماذج عبر مجموعة من الأحجام لتحسين متانة تنبؤ قانون التحجيم، وليس فقط النماذج الأكبر حجمًا؛ حيث يوفر اختيار خمسة نماذج نقطة انطلاق جيدة.
بشكل عام، يؤدي تضمين نماذج أكبر إلى تحسين التنبؤ، ولكن يمكن توفير التكاليف من خلال تدريب نموذج الهدف جزئيًا لما يصل إلى 30٪ من مجموعة بياناته واستخدامه للاستقراء. إذا كانت الميزانية مقيدة بشكل كبير، فيجب على المطورين مراعاة تدريب نموذج أصغر واحد ضمن عائلة نموذج الهدف واستعارة معلمات قانون التحجيم من عائلة نموذج ذات بنية مماثلة؛ ومع ذلك، قد لا ينجح هذا الأمر بالنسبة لنماذج المُشفّر-الفاصل. أخيرًا، وجدت مجموعة أبحاث MIT-IBM أنه عند مقارنة قوانين التحجيم عبر عائلات النماذج، كان هناك ارتباط قوي بين مجموعتين من المعلمات الفائقة، مما يعني أن ثلاثة من المعلمات الخمس الفائقة فسرت تقريبًا كل الاختلاف ويمكن أن تُظهر سلوك النموذج على الأرجح. معًا، توفر هذه الإرشادات نهجًا منهجيًا لجعل تقدير قانون التحجيم أكثر كفاءة وموثوقية وإمكانية الوصول للباحثين في مجال الذكاء الاصطناعي الذين يعملون ضمن قيود ميزانية مختلفة.
نتائج مفاجئة وتطبيقات مستقبلية
ظهرت العديد من المفاجآت خلال هذا العمل: حيث لا تزال النماذج الصغيرة المدربة جزئيًا تنبؤية للغاية، وعلاوة على ذلك، يمكن استخدام مراحل التدريب الوسيطة من نموذج مدرب بالكامل (كما لو كانت نماذج فردية) للتنبؤ بنموذج هدف آخر. يقول كوشن: “بشكل أساسي، لا تدفع أي شيء في التدريب، لأنك قمت بالفعل بتدريب النموذج الكامل، لذا فإن النموذج المدرب جزئيًا، على سبيل المثال، هو مجرد منتج ثانوي لما قمت به”. وأشار أندرياس إلى ميزة أخرى وهي أنه عند تجميعها، برز التباين عبر عائلات النماذج والاختبارات المختلفة وكان أكثر ضوضاء مما هو متوقع. وجد الباحثون بشكل غير متوقع أنه من الممكن استخدام قوانين التحجيم على نماذج كبيرة للتنبؤ بالأداء حتى النماذج الأصغر. افترضت أبحاث أخرى في هذا المجال أن النماذج الأصغر كانت “كائنًا مختلفًا” مقارنةً بالنماذج الكبيرة؛ ومع ذلك، لا يتفق كوشن مع ذلك. يقول: “إذا كانت مختلفة تمامًا، فيجب أن تُظهر سلوكًا مختلفًا تمامًا، وهذا ليس هو الحال”.
في حين ركز هذا العمل على وقت تدريب النموذج، يخطط الباحثون لتوسيع تحليلهم ليشمل استنتاج النموذج. يقول أندرياس إنه ليس، “كيف يصبح نموذجي أفضل مع إضافة المزيد من بيانات التدريب أو المزيد من المعلمات، ولكن بدلاً من ذلك، مع تركه يفكر لفترة أطول، ورسم المزيد من العينات. أعتقد أن هناك بالتأكيد دروسًا يمكن تعلمها هنا حول كيفية بناء نماذج تنبؤية أيضًا لمدى التفكير الذي تحتاج إلى القيام به في وقت التشغيل.” يقول إن نظرية قوانين تحجيم وقت الاستنتاج قد تصبح أكثر أهمية لأن: “ليس الأمر كما لو أنني سأدرب نموذجًا واحدًا ثم أكون قد انتهيت. [بل] في كل مرة يأتي لي مستخدم، سيكون لديه استعلام جديد، وأحتاج إلى معرفة مدى صعوبة تفكير [نموذجي] للتوصل إلى أفضل إجابة. لذا، فإن القدرة على بناء هذه الأنواع من النماذج التنبؤية، كما نفعل في هذه الورقة، أمر أكثر أهمية.”
تم دعم هذا البحث، جزئيًا، من قبل معمل MIT-IBM Watson للذكاء الاصطناعي ومنحة Sloan Research Fellowship.
اترك تعليقاً