اختصارات رياضية فريدة في نماذج اللغات: كيف تتوقع السيناريوهات الديناميكية؟

مقدمة

تتبع نماذج اللغات الكبيرة، مثل ChatGPT، التغيرات داخل “عقلها” الخاص عند إكمال كتلة من التعليمات البرمجية أو توقع ما ستكتبه لاحقًا. تعتمد هذه النماذج عادةً على تخمينات مدروسة باستخدام محولات (Transformers) – وهي بنى داخلية تساعد النماذج على فهم البيانات التسلسلية – لكن هذه الأنظمة قد تُخطئ أحيانًا بسبب أنماط تفكير معيبة. يهدف تحديد هذه الآليات وتعديلها إلى جعل نماذج اللغات أكثر موثوقية في التنبؤ، خاصةً في المهام الديناميكية مثل التنبؤ بالطقس والأسواق المالية.

دراسة نماذج اللغات: اختبارات محاكاة ديناميكية

أظهرت دراسة جديدة من باحثين في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) وقسم الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا (MIT) أن نماذج اللغات لا تعالج المواقف المتغيرة بنفس الطريقة التي نفعلها نحن. بدلاً من ذلك، تستخدم هذه النماذج اختصارات رياضية ذكية بين كل خطوة متتالية في التسلسل، مما يؤدي في النهاية إلى تنبؤات معقولة. قام الفريق بهذا الاكتشاف من خلال تحليل عمل نماذج اللغات الداخلية، وتقييم مدى قدرتها على تتبع الأجسام التي تغير مواقعها بسرعة. أظهرت النتائج أن المهندسين يمكنهم التحكم في وقت استخدام نماذج اللغات لبعض الحلول كطريقة لتحسين قدرات الأنظمة التنبؤية.

تجربة “ألعاب القبعات”: تحليل الخوارزميات الداخلية

استخدم الباحثون تجربة ذكية تشبه لعبة التركيز الكلاسيكية لتحليل عمل هذه النماذج من الداخل. تم تصميم التجربة بحيث تخمن النماذج الترتيب النهائي لأرقام معينة (تسمى تبديلات – permutations). تم تزويد النماذج بتسلسل بداية، مثل “42135”، وتعليمات حول متى وأين يتم نقل كل رقم، مثل نقل الرقم “4” إلى المركز الثالث وهكذا، دون معرفة النتيجة النهائية.

في هذه التجارب، تعلمت نماذج المحولات القائمة على التنبؤ بالترتيبات النهائية الصحيحة تدريجيًا. ولكن بدلاً من تبديل الأرقام بناءً على التعليمات التي تم إعطاؤها، قامت الأنظمة بتجميع المعلومات بين الحالات المتعاقبة (أو الخطوات الفردية داخل التسلسل) وحساب التبديل النهائي.

خوارزميتان رئيسيتان: الخوارزمية الترابطية وخوارزمية التكافؤ الترابطي

لاحظ الفريق نمطين رئيسيين:

  • الخوارزمية الترابطية (Associative Algorithm): تنظم هذه الخوارزمية الخطوات القريبة من بعضها البعض في مجموعات، ثم تحسب تخمينًا نهائيًا. يمكن تصور هذه العملية على شكل شجرة، حيث يكون الترتيب العددي الأولي هو “الجذر”. عند التحرك لأعلى الشجرة، يتم تجميع الخطوات المتجاورة في فروع مختلفة وضربها معًا. في أعلى الشجرة، يكون المزيج النهائي للأرقام، المحسوب بضرب كل تسلسل ناتج في الفروع معًا.

  • الخوارزمية الترابطية للتكافؤ (Parity-Associative Algorithm): تقوم هذه الخوارزمية بتقليل الخيارات قبل تجميعها. تحدد ما إذا كان الترتيب النهائي هو نتيجة لعدد زوجي أو فردي من إعادة ترتيب الأرقام الفردية. ثم تقوم بتجميع التسلسلات المتجاورة من خطوات مختلفة قبل ضربها، تمامًا مثل الخوارزمية الترابطية.

أدوات التحليل: “التجسس” و”تصحيح التنشيط”

استخدم الباحثون أدوات للنظر داخل “عقل” نماذج اللغات لفهم كيفية عمل الخوارزميتين الترابطية والترابطية للتكافؤ:

  • التجسس (Probing): تُظهر هذه الطريقة المعلومات التي تتدفق عبر نظام الذكاء الاصطناعي، مما يُمكّن الباحثين من تتبع تنبؤات النموذج أثناء التجربة.

  • تصحيح التنشيط (Activation Patching): تتضمن هذه التقنية التدخل في بعض “أفكار” النظام، وحقن معلومات غير صحيحة في أجزاء معينة من الشبكة مع الحفاظ على أجزاء أخرى ثابتة، ورؤية كيف سيعدل النظام تنبؤاته.

النتائج والآفاق المستقبلية

أظهرت هذه الأدوات متى تُخطئ الخوارزميات ومتى “تكتشف” الأنظمة كيفية تخمين التبديلات النهائية بشكل صحيح. لاحظوا أن الخوارزمية الترابطية تعلمت بشكل أسرع من الخوارزمية الترابطية للتكافؤ، كما أنها حققت أداءً أفضل في التسلسلات الأطول. يرجع ذلك إلى اعتماد الخوارزمية الثانية بشكل مفرط على الاستدلالات (أو القواعد التي تسمح لنا بحساب حل معقول بسرعة) للتنبؤ بالتبديلات.

أشار الباحثون إلى أن تجاربهم أجريت على نماذج لغات صغيرة الحجم تم ضبطها بدقة على بيانات اصطناعية، لكن حجم النموذج لم يؤثر كثيرًا على النتائج. هذا يشير إلى أن ضبط نماذج اللغات الأكبر حجمًا، مثل GPT 4.1، بدقة من المرجح أن يُنتج نتائج مماثلة. يخطط الفريق لفحص فرضياتهم عن كثب من خلال اختبار نماذج لغات ذات أحجام مختلفة لم يتم ضبطها بدقة، وتقييم أدائها في مهام ديناميكية في العالم الحقيقي مثل تتبع التعليمات البرمجية ومتابعة تطور القصص.

الخلاصة

تقدم هذه الدراسة رؤى قيّمة حول كيفية عمل نماذج اللغات الكبيرة، وتوفر استراتيجيات جديدة واعدة لتحسينها. فهم هذه الآليات الداخلية يُمكّننا من تطوير نماذج أكثر موثوقية ودقة في التنبؤ بالسيناريوهات الديناميكية.

المصدر: MIT News