هندسة معمارية ذكية من أمازون تُحسّن أداء نماذج الذكاء الاصطناعي
أحدث باحثو أمازون ثورةً في مجال الذكاء الاصطناعي من خلال تطويرهم لهندسة معمارية جديدة تقلل من زمن الاستنتاج بنسبة تصل إلى ٣٠٪. يتحقق هذا الإنجاز من خلال تقنية ذكية تقوم بتنشيط الخلايا العصبية ذات الصلة بالمهمة فقط، مُقلّدةً بذلك كفاءة الدماغ البشري الذي يستخدم مناطق مُتخصصة لمهام مُحددة.
التحدي: كفاءة نماذج الذكاء الاصطناعي الضخمة
تُعاني نماذج الذكاء الاصطناعي الضخمة، وخاصة نماذج اللغات الكبيرة (LLMs) والأنظمة الأساسية للذكاء الاصطناعي، من مشكلة ارتفاع التكلفة الحسابية وزيادة زمن الانتظار (الاستجابة). ففي النماذج التقليدية، يتم تنشيط الشبكة بأكملها لكل طلب، بغض النظر عن مدى صلة كل خلية عصبية بالمهمة. وهذا يضمن التنوع، لكنه يُسبب عدم كفاءة كبيرة، حيث يكون جزء كبير من نشاط الشبكة غير ضروري لأي مُدخل مُحدد.
الحل: تقنية التشذيب الديناميكي المُعتمد على السياق
تُقلّد الهندسة المعمارية الجديدة من أمازون كفاءة الدماغ البشري من خلال تقنية “التشذيب الديناميكي المُعتمد على السياق” (Dynamic, Context-Aware Pruning). بدلاً من تشذيب النموذج بشكل ثابت أثناء التدريب، تقوم هذه التقنية بتشذيب الشبكة “عند الطلب” أثناء عملية الاستنتاج نفسها. هذا يسمح للنموذج بالبقاء كبيراً ومتعدد الاستخدامات، ولكنه في الوقت نفسه يكون فعالاً وسريعاً لأي مهمة مُحددة.
قبل معالجة المُدخل، يقوم النموذج بتقييم الخلايا العصبية أو الوحدات الأكثر فائدة بناءً على إشارات مثل نوع المهمة (مثل الكتابة القانونية، الترجمة، أو مساعدة البرمجة)، اللغة، وخصائص السياق الأخرى. ويستخدم لذلك “متنبئ بوابة” (Gate Predictor)، وهو مُكوّن عصبي خفيف الوزن مُدرّب لإنشاء “قناع” يُحدد الخلايا العصبية التي سيتم تشغيلها لتلك المُتتابعة المُحددة. وتكون قرارات البوابة ثنائية، بحيث تكون الخلايا العصبية إما نشطة بالكامل أو مُتجاهلة تماماً، مما يضمن توفيرًا حقيقيًا في الحوسبة.
آلية عمل النظام
تُقدم الهندسة المعمارية آلية بوابة مُعتمدة على السياق. تحلّل هذه الآلية خصائص المُدخل (ولنماذج الكلام، معلومات إضافية مثل الرموز اللغوية ورموز المهمة) لتحديد الوحدات الأساسية للخطوة الحالية، مثل كتل الاهتمام الذاتي، والشبكات التغذية الأمامية، أو الالتفافات المُتخصصة. على سبيل المثال، في مهمة التعرف على الكلام، قد تُنشط وحدات السياق المحلي لتحليل الصوت المُفصّل مع تجاوز المُكونات غير الضرورية التي تُفيد فقط في مهام أخرى.
هذه استراتيجية تشذيب مُنظمّة ونموذجية: بدلاً من إزالة الأوزان الفردية (التي قد تؤدي إلى عدم كفاءة الأجهزة)، يتم تجاوز الوحدات أو الطبقات بأكملها. هذا يحافظ على سلامة بنية النموذج ويضمن التوافق مع وحدات معالجة الرسومات (GPU) ومسرعات الأجهزة الحديثة.
يتم تدريب نموذج متنبئ البوابة بخسارة ندرة (Sparsity Loss) لتحقيق نسبة ندرة مُستهدفة: نسبة الوحدات المُتجاهلة. يستخدم التدريب تقنيات مثل مُقدّر Gumbel-Softmax، مما يضمن أن يبقى سلوك البوابة قابلًا للاشتقاق أثناء التحسين، لكنه ينتج في النهاية اختيارًا ثنائيًا دقيقًا للخلايا العصبية أثناء الاستنتاج.
النتائج المُثبتة: السرعة بدون التضحية بالجودة
أظهرت التجارب أن تجاوز الوحدات غير ذات الصلة ديناميكيًا يمكن أن:
- يقلل زمن الاستنتاج بنسبة تصل إلى ٣٤٪ لمهام الكلام إلى نص متعدد اللغات أو التعرف الآلي على الكلام (ASR)، حيث عانت النماذج الأساسية النموذجية من زمن انتظار قدره ٩.٢٨ ثانية، بينما استغرقت النماذج المُشذبة ما يصل إلى ٥.٢٢ ثانية فقط، حسب المهمة ومستوى الندرة المُراد.
- يُقلل عمليات الفاصلة العائمة (FLOPs) بأكثر من ٦٠٪ عند مستويات ندرة عالية، مما يُقلل بشكل كبير من تكاليف الحوسبة السحابية والأجهزة.
- يحافظ على جودة المخرجات: يُحافظ تشذيب المُشفّر بشكل خاص على درجات BLEU (لمهام الترجمة) ومعدل خطأ الكلمات (WER) لـ ASR حتى مستويات ندرة معتدلة، مما يعني أن المستخدمين لا يرون أي انخفاض في أداء النموذج حتى يتم تطبيق تشذيب قوي للغاية.
- يُوفر قابلية للتفسير: يُظهر تحليل أنماط الوحدات المُشذبة الأجزاء الأساسية من النموذج لكل سياق – تُهيمن وحدات السياق المحلي في ASR، بينما يتم إعطاء الأولوية للشبكات التغذية الأمامية للترجمة الصوتية.
تكيف المهمة واللغة
من الأفكار الأساسية أن استراتيجيات التشذيب المثلى – أي الوحدات التي يجب الاحتفاظ بها أو تجاوزها – يمكن أن تتغير بشكل كبير حسب المهمة واللغة. على سبيل المثال:
- في ASR، تُعتبر أهمية وحدات السياق المحلي (cgMLP) ذات أهمية قصوى، بينما يمكن تشذيب المُشفّر بشكل كبير مع خسارة ضئيلة في الدقة.
- بالنسبة للترجمة الصوتية (ST)، يتطلب كل من المُشفّر والمُشفّر المُحلّل مزيدًا من الاهتمام المُتوازن، حيث تُعد طبقات التغذية الأمامية للمُشفّر المُحلّل ضرورية.
- في السيناريوهات متعددة اللغات أو متعددة المهام، تتكيف عملية اختيار الوحدات ولكنها تُظهر أنماطًا مُتناسقة داخل كل نوع، مما يُبرز التخصص المُتعلم داخل الهندسة المعمارية.
الآثار الأوسع نطاقًا
يُفتح هذا التشذيب الديناميكي والنموذجي الباب أمام:
- ذكاء اصطناعي أكثر كفاءة في استخدام الطاقة وقابلية للتطوير – وهو أمر بالغ الأهمية مع استمرار نمو نماذج اللغات الكبيرة ونماذج الوسائط المتعددة.
- نماذج ذكاء اصطناعي يمكنها تخصيص مسارات الحوسبة الخاصة بها – ليس فقط حسب المهمة ولكن ربما حسب ملف تعريف المستخدم أو المنطقة أو الجهاز.
- إمكانية النقل إلى مجالات أخرى، مثل معالجة اللغات الطبيعية ورؤية الكمبيوتر، حيثما تُستخدم النماذج الأساسية.
من خلال تنشيط الوحدات ذات الصلة بالمهمة فقط في الوقت الفعلي، مستوحاة من الكفاءة العصبية البيولوجية، تُشير هندسة أمازون المعمارية إلى الطريق نحو ذكاء اصطناعي قوي وعملي للاستخدام العالمي في العالم الحقيقي.
اترك تعليقاً