تحويل نموذج TimesFM إلى متعلم ذي عدد قليل من الأمثلة: نهج جديد من جوجل للتعلم الآلي

يقدم هذا المقال شرحًا مفصلًا لنهج جديد ابتكرته جوجل في مجال التعلم الآلي، والذي يحول نموذج TimesFM للتنبؤ بالمتسلسلات الزمنية إلى متعلم ذي عدد قليل من الأمثلة (Few-Shot Learner). هذا النهج، الذي يُعرف بـ “التحسين الدقيق ضمن السياق” (In-Context Fine-Tuning – ICF)، يمكّن TimesFM من التكيّف مع مجموعات بيانات جديدة دون الحاجة إلى تدريب إضافي لكل مجموعة بيانات على حدة.

التحدي الذي تم حله

تتمثل المشكلة الرئيسية في أنظمة التنبؤ بالمتسلسلات الزمنية في التوازن بين دقة النموذج وسهولة استخدامه. فمن جهة، يُعدّ تدريب نموذج منفصل لكل مجموعة بيانات (التحسين الدقيق المُشرف عليه) أكثر دقة، لكنه يتطلب جهدًا كبيرًا في عمليات التعامل مع النماذج (MLOps). ومن جهة أخرى، تُعدّ نماذج الأساس (Foundation Models) ذات الأداء الجيد بدون تدريب (Zero-Shot) بسيطة وسهلة الاستخدام، لكنها لا تتكيّف بشكل جيد مع مجالات محددة. يُقدم نهج جوجل الجديد حلاً وسطًا فعالًا.

آلية عمل التحسين الدقيق ضمن السياق (ICF)

يعتمد هذا النهج على نموذج TimesFM، وهو عبارة عن محوّل (Transformer) مُشفّر فقط، مُصمم خصيصًا لمعالجة المتسلسلات الزمنية. ويتميز ICF بإضافة خطوة جديدة أثناء عملية التدريب المُستمر (Continued Pre-training): يتم تدريب TimesFM على متسلسلات زمنية تتضمن تاريخ البيانات المُستهدفة بالإضافة إلى عدة متسلسلات أخرى ذات صلة (متسلسلات دعم). ويتم فصل هذه المتسلسلات باستخدام رمز فاصل قابل للتعلم. هذا يسمح لآلية الانتباه (Attention Mechanism) بتحليل البنية بين الأمثلة المختلفة دون الخلط بين الاتجاهات. يبقى هدف التدريب هو التنبؤ بالرمز التالي، ولكن الجديد هنا هو بنية السياق التي تُعلّم النموذج على الاستنتاج عبر عدة متسلسلات ذات صلة أثناء الاستنتاج.

ما المقصود بـ “متعلم ذي عدد قليل من الأمثلة”؟

أثناء الاستنتاج، يُدمج المستخدم تاريخ البيانات المُستهدفة مع عدد قليل من مقاطع المتسلسلات الزمنية الأخرى (مثل وحدات تخزين مماثلة أو أجهزة استشعار مجاورة)، مفصولة بعلامات فاصلة. يتم تدريب طبقات الانتباه في النموذج على الاستفادة من هذه الأمثلة ضمن السياق، بشكل مشابه لعملية التوجيه (Prompting) في نماذج اللغات الكبيرة، ولكن مع متسلسلات رقمية بدلاً من الرموز النصية. هذا يُحوّل عملية التكيّف من تحديث المعلمات إلى هندسة سياق البيانات المُهيكلة.

مقارنة مع تقنيات أخرى

يُختلف هذا النهج عن تقنيات أخرى مثل Chronos، التي تعتمد على تحويل القيم إلى مفردات منفصلة. إضافة جوجل هنا ليست مُحسّنًا جديدًا أو تحسينًا في الأداء بدون تدريب، بل هي تمكين نموذج المتسلسلات الزمنية من العمل كمتعلم ذي عدد قليل من الأمثلة، أي التعلّم من سياق المتسلسلات المتعددة أثناء الاستنتاج. هذه القدرة تُقلّص الفجوة بين التكيّف أثناء التدريب والتكيّف أثناء الاستنتاج للتنبؤات العددية.

التفاصيل المعمارية المهمة

تُبرز الدراسة البحثية النقاط التالية:

  • رموز فاصلة لتمييز الحدود بين المتسلسلات.
  • آلية انتباه سببية على التواريخ والأمثلة المُختلطة.
  • استخدام تقنية “التصحيح” (Patching) و رؤوس MLP مُشتركة.
  • التدريب المُستمر لغرس سلوك الاستنتاج عبر الأمثلة.

النتائج

يُحوّل التحسين الدقيق ضمن السياق نموذج TimesFM إلى متنبئ عملي ذي عدد قليل من الأمثلة: نقطة فحص مُدرّبة مسبقًا تتكيف أثناء الاستنتاج عبر متسلسلات الدعم المُعدّة، مما يُوفر دقة مُشابهة للتحسين الدقيق المُشرف عليه دون الحاجة إلى تدريب لكل مجموعة بيانات على حدة. هذا مفيد جدًا في عمليات النشر متعددة المستأجرين التي تخضع لقيود زمنية، حيث يصبح اختيار مجموعات الدعم هو السطح الرئيسي للتحكم.

أسئلة شائعة

  1. ما هو “التحسين الدقيق ضمن السياق” (ICF) من جوجل للمتسلسلات الزمنية؟ هو تدريب مُستمر يُهيئ TimesFM لاستخدام متسلسلات مُتعددة ذات صلة موجودة في المُوجه أثناء الاستنتاج، مما يُمكّن التكيّف مع عدد قليل من الأمثلة بدون تحديثات التدرج لكل مجموعة بيانات.

  2. كيف يختلف ICF عن التحسين الدقيق القياسي واستخدام النموذج بدون تدريب؟ التحسين الدقيق القياسي يُحدث الأوزان لكل مجموعة بيانات؛ يستخدم النموذج بدون تدريب نموذجًا ثابتًا مع تاريخ البيانات المُستهدفة فقط. يُبقي ICF الأوزان ثابتة عند النشر، لكنه يتعلم أثناء التدريب كيفية الاستفادة من الأمثلة الإضافية ضمن السياق، مُحققًا دقة مُشابهة للتحسين الدقيق لكل مجموعة بيانات في المعايير المُبلغ عنها.

  3. ما هي التغييرات المعمارية أو التدريبية المُدخلة؟ تمّ تدريب TimesFM بشكل مُستمر باستخدام متسلسلات تتخلل تاريخ البيانات المُستهدفة ومتسلسلات الدعم، مفصولة برموز حدود خاصة حتى تتمكن آلية الانتباه السببية من الاستفادة من بنية المتسلسلات المتعددة؛ يبقى باقي مُكدس TimesFM المُشفّر فقط كما هو.

  4. ماذا تُظهر النتائج مقارنة بالخطوط الأساسية؟ يُحسّن ICF من أداء TimesFM الأساسي ويُحقق نفس مستوى التحسين الدقيق المُشرف عليه في مجموعات البيانات خارج المجال؛ تم تقييمه مقابل معايير قوية للمتسلسلات الزمنية (مثل PatchTST) ونماذج الأساس السابقة (مثل Chronos).

المصدر: MarkTechPost