نماذج أساسيات تناظرية: حل مشكلة الضوضاء في أجهزة الذكاء الاصطناعي القائمة على الذاكرة

يُمثّل التكامل بين نماذج اللغات الضخمة (LLMs) وأجهزة الحوسبة التناظرية داخل الذاكرة (AIMC) تحديًا كبيرًا في مجال الذكاء الاصطناعي. فقد وعدت تقنية AIMC بقفزة نوعية في الكفاءة، حيث تسمح بتشغيل نماذج ضخمة بعدد مليار معامل في حجم صغير مناسب للأجهزة المدمجة أو أجهزة الحافة، وذلك بفضل ذاكرة غير متطايرة كثيفة (NVM) تجمع بين التخزين والحوسبة. لكنّ نقطة ضعف هذه التقنية تكمن في الضوضاء، حيث تؤدي عمليات ضرب المصفوفات بالمتجهات مباشرةً داخل أجهزة NVM إلى أخطاء غير حتمية تُضعف كفاءة النماذج الجاهزة.

لماذا تُعتبر الحوسبة التناظرية مهمة لـ LLMs؟

على عكس وحدات معالجة الرسومات (GPUs) أو وحدات معالجة التنسور (TPUs) التي تنقل البيانات بين وحدات الذاكرة ووحدات الحوسبة، تُجري AIMC عمليات ضرب المصفوفات بالمتجهات مباشرةً داخل مصفوفات الذاكرة. يُزيل هذا التصميم عائق فون نيومان (Von Neumann bottleneck) ويُحقق تحسينات هائلة في الإنتاجية وكفاءة الطاقة. أظهرت دراسات سابقة أن الجمع بين AIMC وذاكرة NVM ثلاثية الأبعاد وعمارة خليط الخبراء (MoE) يمكن أن يدعم، من حيث المبدأ، نماذج ضخمة تصل إلى تريليون معامل على مُسرّعات مدمجة. وهذا من شأنه أن يجعل الذكاء الاصطناعي على نطاق واسع ممكنًا على أجهزة تتجاوز مراكز البيانات بكثير.

التحديات في استخدام حوسبة الذاكرة التناظرية (AIMC)

أبرز عقبة تواجه استخدام AIMC هي الضوضاء. تعاني عمليات الحوسبة في AIMC من تقلبات الأجهزة، وكمية DAC/ADC، وتقلبات وقت التشغيل التي تُقلل من دقة النموذج. على عكس الكميّة في GPUs – حيث تكون الأخطاء حتمية وقابلة للإدارة – فإن الضوضاء التناظرية عشوائية وغير متوقعة. وجدت الأبحاث السابقة طرقًا لتكييف الشبكات الصغيرة مثل CNNs و RNNs (أقل من 100 مليون معامل) لتحمل هذه الضوضاء، لكن نماذج LLMs التي تحتوي على مليارات المعامل انهارت باستمرار تحت قيود AIMC.

نماذج الأساسيات التناظرية: حل مشكلة الضوضاء

يُقدم فريق باحثي IBM و ETH زيورخ نماذج الأساسيات التناظرية (AFMs) التي تُدمج التدريب المُدرك للأجهزة لإعداد نماذج LLMs للتنفيذ التناظري. تستخدم خطتهم ما يلي:

  • حقن الضوضاء أثناء التدريب: لمحاكاة عشوائية AIMC.
  • قص الوزن التكراري: لتحقيق استقرار التوزيعات داخل حدود الجهاز.
  • تعلم نطاقات الكميّة الثابتة للإدخال/الإخراج: بما يتوافق مع قيود الأجهزة الفعلية.
  • التقطير من نماذج LLMs المُدرّبة مسبقًا: باستخدام 20 مليار رمز من البيانات الاصطناعية.

تسمح هذه الأساليب، المُنفّذة باستخدام AIHWKIT-Lightning، لنماذج مثل Phi-3-mini-4k-instruct و Llama-3.2-1B-Instruct بالحفاظ على أداء مُقارن مع خطوط الأساس المُكمّاة 4 بت/ 8 بت تحت ضوضاء تناظرية. في التقييمات عبر معايير المنطق والحقائق، تفوقت نماذج AFMs على كل من التدريب المُدرك للكمية (QAT) والكمية بعد التدريب (SpinQuant).

هل تعمل هذه النماذج فقط للأجهزة التناظرية؟

لا. كانت النتيجة غير المتوقعة هي أن نماذج AFMs تعمل بقوة أيضًا على الأجهزة الرقمية منخفضة الدقة. نظرًا لأن نماذج AFMs مُدرّبة على تحمل الضوضاء والقص، فإنها تُعالِج الكميّة البسيطة بعد التدريب (RTN) بشكل أفضل من الطرق الحالية. يجعلها هذا مفيدة ليس فقط للمُسرّعات AIMC، ولكن أيضًا لأجهزة الاستنتاج الرقمية التجارية.

هل يمكن أن يتناسب الأداء مع المزيد من الحوسبة في وقت الاستنتاج؟

نعم. اختبر الباحثون توسيع نطاق حوسبة وقت الاختبار على معيار MATH-500، حيث تم توليد إجابات متعددة لكل استعلام واختيار الأفضل عبر نموذج مكافأة. أظهرت نماذج AFMs سلوكًا أفضل للتوسيع مقارنة بنماذج QAT، مع تقلص الفجوات في الدقة مع تخصيص المزيد من حوسبة الاستنتاج. يتوافق هذا مع نقاط قوة AIMC – الاستنتاج منخفض الطاقة وعالي الإنتاجية بدلاً من التدريب.

تأثير هذا البحث على مستقبل حوسبة الذاكرة التناظرية (AIMC)

يُقدم فريق البحث أول إثبات منهجي على أنه يمكن تكييف نماذج LLMs الضخمة مع أجهزة AIMC دون فقدان دقة كارثي. بينما يُعد تدريب نماذج AFMs مكلفًا من حيث الموارد، ولا تزال مهام التفكير مثل GSM8K تُظهر فجوات في الدقة، إلا أن النتائج تُمثل إنجازًا كبيرًا. يجعل الجمع بين كفاءة الطاقة، والمتانة ضد الضوضاء، والتوافق المتبادل مع الأجهزة الرقمية، نماذج AFMs اتجاهًا واعدًا لتوسيع نطاق نماذج الأساسيات لما يتجاوز حدود وحدات معالجة الرسومات.

ملخص

يُمثّل إدخال نماذج الأساسيات التناظرية علامة فارقة في توسيع نطاق نماذج LLMs لما يتجاوز حدود المُسرّعات الرقمية. من خلال جعل النماذج قوية ضد الضوضاء غير المتوقعة لحوسبة الذاكرة التناظرية، يُظهر فريق البحث أن AIMC يمكن أن تنتقل من وعد نظري إلى منصة عملية. في حين أن تكاليف التدريب لا تزال مرتفعة ولا تزال معايير التفكير تُظهر فجوات، إلا أن هذا العمل يُنشئ مسارًا نحو نماذج ضخمة موفرة للطاقة تعمل على أجهزة مدمجة، مما يُقرب نماذج الأساسيات من نشرها على أجهزة الحافة.

المصدر: MarkTechPost