إطار عمل “ثينكلِس”: تقنية ذكية تقلل من التفكير غير الضروري في نماذج اللغات الكبيرة بنسبة تصل إلى 90%

يعتمد فعالية نماذج اللغات الكبيرة على قدرتها على محاكاة الاستنتاج البشري خطوة بخطوة. ومع ذلك، فإن هذه التسلسلات الاستنتاجية تستهلك موارد حاسوبية كبيرة وقد تكون مضيعة للوقت والجهد في حالة الأسئلة البسيطة التي لا تتطلب عمليات حسابية معقدة. يُشكل عدم وعي هذه النماذج بمدى تعقيد المهمة أحد التحديات الرئيسية فيها، حيث غالباً ما تلجأ إلى التفكير المُفصل حتى في حالة الاستفسارات التي يمكن الإجابة عنها بشكل مباشر. يؤدي هذا النهج إلى زيادة استخدام الرموز (tokens)، وإطالة وقت الاستجابة، وزيادة زمن الوصول للبيانات واستهلاك الذاكرة. ونتيجة لذلك، هناك حاجة ماسة لتزويد نماذج اللغات بآلية تمكنها من اتخاذ قرارات مستقلة حول ما إذا كانت ستفكر بعمق أو ستقدم إجابة موجزة.

التحديات السابقة في معالجة مشكلة التفكير المفرط

تحاول الأدوات الحالية التي تسعى لحل هذه المشكلة إما الاعتماد على أساليب تقريبية مُحددة يدوياً أو هندسة المُطالبات للتحويل بين الاستجابات القصيرة والطويلة. تستخدم بعض الطرق نماذج منفصلة وتوجه الأسئلة بناءً على تقديرات التعقيد. ومع ذلك، غالباً ما تفتقر أنظمة التوجيه الخارجية هذه إلى فهم نقاط القوة في النموذج المُستهدف، وتفشل في اتخاذ القرارات المثلى. وتعتمد تقنيات أخرى على ضبط النماذج بدقة باستخدام إشارات قائمة على المُطالبات مثل “التفكير مُشغّل/مُعطّل”، لكن هذه تعتمد على قواعد ثابتة بدلاً من الفهم الديناميكي. وبالرغم من بعض التحسينات، فإن هذه الأساليب تفشل في تمكين التحكم الذاتي والمتحسس للسياق بالكامل داخل نموذج واحد.

إطار عمل “ثينكلِس”: حل مبتكر من جامعة سنغافورة الوطنية

قدم باحثون من جامعة سنغافورة الوطنية إطار عمل جديداً يُسمى “ثينكلِس” (Thinkless)، والذي يُزوّد نموذج اللغة الكبيرة بالقدرة على اتخاذ قرار ديناميكي بين استخدام الاستنتاج القصير أو الطويل. يعتمد الإطار على تقنية التعلم المعزز ويُدخِل رمزين تحكم خاصين: <short> للإجابات الموجزة و <think> للاستجابات المُفصلة.

بدمج خوارزمية جديدة تُسمى “تحسين السياسة النسبية للمجموعة المُنفصلة” (DeGRPO)، يُفصل “ثينكلِس” تركيز التدريب بين اختيار وضع الاستنتاج وتحسين دقة الاستجابة المُولدة. يمنع هذا التصميم النموذج من الوقوع في سلوك أحادي البعد، ويُمكّنه من الاستنتاج التكيفي المُناسب لكل استعلام.

منهجية عمل إطار “ثينكلِس”:

تتضمن منهجية “ثينكلِس” مرحلتين:

  1. مرحلة التقطير التدريبية (Warm-up distillation): يُدرّب “ثينكلِس” باستخدام مخرجات من نموذجين خبيرين: أحدهما متخصص في الاستجابات القصيرة، والآخر في الاستنتاج المُفصل. تُساعد هذه المرحلة النموذج على إقامة رابط قوي بين رمز التحكم وطريقة الاستنتاج المُراد استخدامها.

  2. مرحلة التعلم المعزز (Reinforcement learning): تُحسّن هذه المرحلة قدرة النموذج على تحديد وضع الاستنتاج الذي يجب استخدامه. يُحلل DeGRPO عملية التعلم إلى هدفين منفصلين: أحدهما لتدريب رمز التحكم، والآخر لتحسين رموز الاستجابة. يتجنب هذا النهج اختلال التوازن في التدرجات في النماذج السابقة، حيث كانت الاستجابات الأطول تُهيمن على إشارة التعلم، مما يؤدي إلى انهيار تنوع الاستنتاج. يضمن “ثينكلِس” حصول كل من رمزي <short> و <think> على تحديثات متوازنة، مما يعزز التعلم المستقر عبر أنواع الاستجابة.

نتائج تقييم إطار عمل “ثينكلِس”:

عند التقييم، قلل “ثينكلِس” بشكل كبير من الاستنتاج الطويل مع الحفاظ على دقة عالية. على سبيل المثال:

  • معيار Minerva Algebra: استخدم النموذج رمز <think> في 25.88% فقط من الحالات مع تحقيق دقة 94.59%.
  • مجموعة بيانات AIME 2024: حقق “ثينكلِس” معدل دقة 27.33% مع استخدام 100% لوضع الاستنتاج، مما يدل على أنه يمكنه الحفاظ على الأداء عندما يكون الاستنتاج الكامل ضرورياً.
  • مجموعة بيانات GSM8K: استخدم <think> فقط في 13.31% من الوقت، مع تحقيق دقة 84.18%.

تعكس هذه النتائج قدرة النموذج على معالجة الاستفسارات البسيطة والمعقدة بعمق استنتاج مناسب، مما يقلل من توليد الرموز غير الضرورية بنسبة تصل إلى 90% في بعض المهام.

الخلاصة

بشكل عام، تقدم هذه الدراسة من باحثي جامعة سنغافورة الوطنية حلاً مُقنعاً لعدم كفاءة الاستنتاج المُوحد في نماذج اللغات الكبيرة. من خلال إدخال آلية تُمكّن النماذج من تقدير تعقيد المهمة وضبط استراتيجية الاستدلال الخاصة بها وفقاً لذلك، يُحسّن “ثينكلِس” كل من الدقة والكفاءة. تُوازن هذه الطريقة بين عمق الاستنتاج ودقة الاستجابة دون الاعتماد على قواعد ثابتة، مما يُوفر نهجاً قائماً على البيانات لسلوك أكثر ذكاءً في نماذج اللغات.

المصدر: MarkTechPost