نموذج AU-Net: ثورة في معالجة اللغات الطبيعية بتقنية بايت-ليفل متطورة

تُعد نماذج معالجة اللغات الطبيعية ركيزة أساسية في هذا المجال، حيث تُمكّن الآلات من التنبؤ بِالنصوص وإنشائها بطريقة تُشبه الكلام البشري. وقد تطورت هذه النماذج بشكل كبير، بدءًا من الأساليب الإحصائية، مروراً بالهياكل العصبية، وصولاً إلى أنظمة الترانسفورمر الضخمة الحالية. تُستخدم نماذج اللغات في العديد من التطبيقات، مثل روبوتات الدردشة، وأدوات الترجمة، ومحركات إكمال النصوص، حيث تقوم بتفسير وتوليد تسلسلات من الكلمات أو البايتات. وتعتمد فعاليتها إلى حد كبير على الهيكلة الأساسية وطريقة تمثيل البيانات المُستخدمة. ومع تزايد الطلب على نماذج أكثر كفاءة وقابلية للتطوير، يستمر الباحثون في استكشاف هياكل جديدة وطرق تدريب لتحسين الأداء، ومعالجة السياقات الأطول، وتقليل العبء الحسابي. ومن بين هذه الجهود، برز الجمع بين أفكار الهياكل التلافيفية والتنبؤ التلقائي التراجعي كنهج مثير للاهتمام.

تحديات نماذج الترانسفورمر المعتمدة على الرموز:

من أهم المشاكل في نماذج معالجة اللغات الطبيعية الاعتماد المفرط على نماذج الترانسفورمر والنماذج القائمة على الرموز، والتي تُعتبر مكلفة من الناحية الحسابية وغير فعالة بشكل عام لمعالجة البيانات على مستوى البايت أو حتى بين اللغات المختلفة. تقنيات مثل ترميز أزواج البايت (Byte Pair Encoding) تتحكم في أطوال التسلسلات، لكنها تخلق عدم اتساق بين اللغات والمجالات. وبالرغم من دقة نماذج الترانسفورمر، إلا أنها تفتقر إلى قابلية التطوير بسبب تعقيدها التربيعي. وبينما تحاول النهج المنافسة، مثل الانتباه المتناثر، حل هذه المشكلة، فإنها عادةً ما تفعل ذلك على حساب البساطة أو الأداء. وقد أظهر النمذجة على مستوى البايت باستخدام ترانسفورمر مسطحة نجاحًا جزئيًا فقط، مما يؤكد الحاجة إلى هياكل جديدة قادرة على معالجة مدخلات البايت الخام دون الحاجة إلى الرموز مع تحقيق أداء ممتاز.

AU-Net: نموذج لغة بايت-ليفل بدون رموز

قدّم باحثون من FAIR في Meta، وجامعة تل أبيب، ومعهد INRIA، وLISN، وCNRS وجامعة باريس ساكلاي، وINSA روان نورماندي، وLITIS، وروان، فرنسا، نموذج AU-Net الجديد (Autoregressive U-Net). يُدمج هذا النموذج أفكار تصميمات U-Net التلافيفية مع عمليات فك التشفير التلقائي التراجعي. على عكس أنظمة الترانسفورمر، لا يتطلب AU-Net الرموز ويعمل مباشرة على البايتات. تم تصميم الهيكلة لتمكين التوليد المتوازي والفعال، مع القدرة على دمج القدرات التلقائية التراجعية. ويحقق ذلك من خلال ترميز هرمي للانحلالات المُخفّضة للعينة، ثم مراحل زيادة العينة، والتي تُعيد حجم التسلسل الأصلي. ومن الجدير بالذكر أن AU-Net يقدم آلية تقسيم تُمكّن من إجراء التنبؤات على مقاطع فرعية من التسلسل، مما يُعزز قابلية التطوير. كما يضمن هذا التحول في التصميم أن تزداد تعقيدات النموذج خطيًا مع طول التسلسل، بدلاً من زيادة تربيعية. وقد قام الباحثون بنشر هذا النموذج عبر العديد من معايير نماذج اللغات والمهام متعددة اللغات لاختبار فعاليته في كل من الإعدادات ذات الموارد المنخفضة والإعدادات واسعة النطاق.

هيكلة AU-Net: الترميز متعدد المقاييس والاستدلال المتوازي

تم تنفيذ هيكلة AU-Net مع مراحل متعددة المقاييس تُقلل ثم تُعيد بناء تسلسلات الإدخال باستخدام تلافيف ذات خطوات. أثناء التدريب، يتم التنبؤ بكل مقطع من تسلسل الإدخال بطريقة مُقنّعة للحفاظ على الخاصية التلقائية التراجعية. يستخدم النموذج دالة تقسيم مُتعلمة لتقسيم تسلسلات الإدخال إلى مجموعات غير متداخلة، ثم يتم التنبؤ بها بالتزامن ودمجها في ناتج كامل. يدعم كل من التكوينات الضحلة والعميقة، مع نماذج تتراوح من 3% إلى 75% من ميزانية الحوسبة التدريبية مقارنة بالمعايير الأساسية القياسية. على سبيل المثال، حقق أحد التكوينات المُدرّبة على 200 مليار رمز بـ 8 مليارات بارامتر نتائج تنافسية للغاية. حقق إصدار آخر، مُدرّب على 60 مليار رمز مع نموذج مليار بارامتر، درجة BLEU تبلغ 35.7 في مهام الترجمة القياسية، متفوقًا على نماذج الأساس المُدرّبة على نفس البيانات. بالإضافة إلى ذلك، أظهر AU-Net سرعات توليد أسرع نظرًا لفك التشفير المتوازي، مما يوفر فائدة كبيرة للتطبيقات الحساسة للوقت.

نتائج معايير الأداء: تفوق AU-Net على نماذج الترانسفورمر

أظهرت النتائج التجريبية أداءً قويًا عبر مجموعة واسعة من المهام. على Enwik8، وهو مقياس ضغط على مستوى البايت، حقق AU-Net 1.01 بت لكل بايت، متجاوزًا معيار الترانسفورمر الذي وصل إلى 1.02 بت لكل بايت فقط. على PG-19، وهي مهمة نمذجة لغة ذات سياق طويل، حقق النموذج 2.61 بت لكل بايت مقارنة بـ 2.75 من ترانسفورمر القياسية. كما تم تطوير AU-Net بشكل فعال عبر ميزانيات الحوسبة، محققًا 43.3 BLEU في ترجمة FLORES-200 بحجم نموذج 8 مليارات مُدرّب على 200 مليار رمز. في التقييم متعدد اللغات باستخدام FLORES-200، تفوق النموذج على ترانسفورمر القائمة على الرموز عبر أزواج اللغات ذات الموارد المنخفضة. كما أظهر تعميمًا عبر اللغات أفضل داخل عائلات اللغات، محققًا درجة BLEU تصل إلى 33.0 في العديد من التكوينات. عند التقييم في ظل ميزانيات حوسبة وبيانات متساوية، طابق AU-Net أو تفوق على ترانسفورمر، مع تحسين سرعات التوليد بنسبة 20% إلى 30% في بعض الإعدادات.

المساهمات الرئيسية وأداء AU-Net:

  • القضاء على الحاجة للرموز: يعمل AU-Net مباشرة على مدخلات البايت الخام.
  • أداء متفوق على مستوى البايت: حقق AU-Net 1.01 bpb على Enwik8، متفوقًا على معايير الترانسفورمر (1.02 bpb). وحقق 2.61 bpb على PG-19، مُحسّنًا على 2.75 bpb من ترانسفورمر القياسية.
  • أداء متميز في المهام متعددة اللغات: أظهرت تقييمات FLORES-200 متعددة اللغات درجة BLEU تصل إلى 33.0، متفوقة على الأنظمة القائمة على الرموز.
  • أداء ثابت في بيئات ذات موارد عالية ومنخفضة: حافظت نماذج مستوى البايت المُدرّبة باستخدام AU-Net على أداء عالي عبر الإعدادات ذات الموارد العالية والمنخفضة.
  • سرعة توليد مُحسّنة: تحسنت سرعة التوليد بنسبة 20%-30%، مما يدعم الاستدلال المتوازي السريع.
  • قوانين التطوير: تحسن الأداء مع زيادة حجم النموذج والبيانات.
  • التعميم عبر اللغات: أظهر النموذج تعميمًا أفضل عبر اللغات ومقاومة للضوضاء.
  • استخدام فعال للحوسبة: طابق AU-Net أو تجاوز أداء ترانسفورمر بميزانيات حوسبة أقل.

الخلاصة: الفوائد العملية لـ AU-Net وإمكانياته في التطوير

في الختام، قدم الباحثون تحليلات مفصلة للتطوير تُظهر أن AU-Net يلتزم بقوانين تطوير المعلمات المُتوقعة. يستفيد من زيادة حجم النموذج ورموز التدريب بطريقة تتوافق مع الممارسات المُلاحظة في نماذج الترانسفورمر. على سبيل المثال، في إعدادات التدريب المُطابقة للحوسبة، تحسن أداء AU-Net بشكل مطرد مع زيادة نسبة البيانات إلى النموذج، مُطابقًا المكاسب المُشاهدة في نظيرات الترانسفورمر. والأهم من ذلك، تمكن AU-Net من التطوير إلى نماذج تحتوي على 8 مليارات بارامتر، مُظهرًا تدريبًا فعالًا ومُبينًا أن الهيكلة قادرة على دعم أنظمة عالية السعة. في التقييمات المُوسعة، حافظ النموذج على كفاءته عند تطبيقه على المهام التابعة، مُظهرًا أداءً قويًا في معايير توليد اللغة، والترجمة، والتنبؤ على مستوى البايت. كما أثبت AU-Net أنه أسهل في التدريب وأكثر مقاومة في ظل ظروف إدخال ضوضاء مقارنة بالنماذج القائمة على الرموز.

أهمية هذا البحث

تكمُن أهمية هذا البحث في تحديه الاعتماد الطويل الأمد على نماذج اللغات القائمة على الرموز من خلال تقديم AU-Net، وهو هيكلة تلقائية تراجعية على مستوى البايت تُلغي عبء الرموز مع تحقيق أداء تنافسي أو متفوق. من خلال معالجة البايتات الخام مباشرة وتطويرها بكفاءة مع تعقيد خطي، يعالج AU-Net القيود الرئيسية لنماذج الترانسفورمر – وهي قياسها التربيعي واعتمادها على مفردات ثابتة. وتُبرز نتائجه القوية عبر معايير متعددة اللغات وسياقات طويلة، خاصة في الإعدادات ذات الموارد المنخفضة، إمكاناته لبناء أنظمة معالجة اللغات الطبيعية أكثر كفاءة وشمولية وقابلية للتعميم. وهذا يضع AU-Net كبديل واعد لجهود نمذجة اللغة واسعة النطاق في المستقبل.

المصدر: MarkTechPost