الذكاء الاصطناعي للشركات: معالجة النصوص بكفاءة عالية وتكلفة منخفضة
تواجه معالجة اللغات الطبيعية في بيئات الشركات تحديات كبيرة، خاصة مع تزايد اعتماد سير العمل على دمج المعلومات من مصادر متنوعة، بما في ذلك الوثائق الداخلية، ومستودعات التعليمات البرمجية، وتقارير الأبحاث، وتدفقات البيانات في الوقت الفعلي. في حين أن التطورات الأخيرة في نماذج اللغات الكبيرة قد حققت قدرات مذهلة، إلا أن هذا التقدم يأتي مع عيوب كبيرة: ارتفاع تكاليف الطلبات بشكل كبير، ومتطلبات تحديث الأجهزة باستمرار، وزيادة مخاطر انتهاك خصوصية البيانات. وقد أظهر السعي وراء نماذج أكبر حجماً عوائد متناقصة، مع زيادة الطلب على الطاقة بشكل كبير، مما قد يحد من تطوير الذكاء الاصطناعي في المستقبل.
الحل الأمثل: نماذج اللغات الصغيرة
تحتاج الشركات الحديثة إلى حلول متوازنة توفر فهمًا شاملاً للسياق الطويل مع الحفاظ على معالجة فعالة، وقدرات خدمة منخفضة التكلفة وقابلة للتنبؤ، وضمانات خصوصية قوية. وتُعد نماذج اللغات الصغيرة مثالية لتوفير هذه المجموعة، على الرغم من متطلبات الاستدلال المعقدة وعالية الحجم المميزة لتطبيقات الأعمال اليوم.
التحديات التقليدية:
اعتمدت النهج التقليدية لتوسيع قدرات نماذج اللغات لتجاوز حدود سياقها المدمج على عدة طرق بديلة، مثل:
- أنظمة توليد البيانات المعززة بالاسترجاع (RAG): تسحب هذه الأنظمة المعلومات ذات الصلة من قواعد بيانات المعرفة الخارجية لإكمال مدخلات النموذج.
- استدعاءات الأدوات الخارجية: تمكّن هذه الاستدعاءات النماذج من الوصول إلى وظائف متخصصة خارج معلماتها.
- آليات الذاكرة: تحافظ هذه الآليات بشكل مصطنع على المعلومات عبر دورات المحادثة.
على الرغم من وظائفها، إلا أن هذه التقنيات تمثل حلولاً “خياطة” هشة تزيد من التعقيد ونقاط الفشل المحتملة في خطوط معالجة البيانات. كما أن محاولات توسيع نافذة السياق في النماذج الأكبر حجماً أدت إلى زيادة كبيرة في العبء الحسابي. وتسلط هذه الحلول المؤقتة الضوء على أهمية معالجة السياق الطويل الأصيلة، التي تسمح للنماذج بمعالجة الوثائق الكاملة، والمحادثات المستمرة، ومستودعات التعليمات البرمجية، وتقارير الأبحاث في تمريرة واحدة بدلاً من المعالجة المجزأة.
xGen-small: نموذج لغة صغير لكن قوي
طوّر قسم أبحاث الذكاء الاصطناعي في Salesforce نموذج xGen-small، وهو نموذج لغة صغير ومجهز للشركات لمعالجة السياق الطويل بكفاءة. يُجمع هذا الحل بين معالجة البيانات الموجهة للقطاع، والتدريب القابل للتوسع، وتقنيات توسيع الطول، والضبط الدقيق حسب التعليمات، والتعلم المعزز لتقديم قدرات ذكاء اصطناعي عالية الأداء للشركات بتكاليف منخفضة وقابلة للتنبؤ، مما يُعالج التوازن المهم الذي تحتاجه الشركات بين القدرة والكفاءة التشغيلية.
تصميم “صغير لكن طويل”:
يعتمد تصميم xGen-small على استراتيجية “صغير لكن طويل” التي تُغير بشكل أساسي نموذج التوسع التقليدي. بدلاً من زيادة عدد المعلمات، يقلل هذا النهج حجم النموذج عمداً مع تحسين توزيعات البيانات بدقة نحو مجالات ذات صلة بالشركات وبروتوكولات التدريب. تتطلب هذه الفلسفة المعمارية خبرة شاملة عبر مراحل التطوير والمكونات المتعددة التي تعمل معاً من خلال خط أنابيب متكامل رأسياً.
خط أنابيب التطوير:
يبدأ الإطار بعناية فائقة في معالجة البيانات الخام، يتبعه تدريب قابل للتوسع مُحسّن للمعالجة الفعالة. تمكّن آليات توسيع الطول المتطورة النموذج الصغير من معالجة السياقات الواسعة، بينما تعمل تقنيات ما بعد التدريب والتعلم المعزز على تحسين الأداء في مهام محددة للشركات.
مراحل تطوير xGen-small:
- معالجة البيانات: بدأت معالجة البيانات لـ xGen-small بجمع مجموعة بيانات أكبر بكثير من ثمانية تريليونات رمز تدريب نهائية، ثم تطبيق مرشحات سريعة لاكتشاف الرسائل غير المرغوب بها، وتقييم الجودة من خلال مجموعات من التصنيفات. تم إزالة التكرارات عن طريق استخدام التجزئة الدقيقة وبصمات الأصابع الضبابية، مع موازنة دقيقة بين البيانات العامة والمحتوى المتخصص للرموز والرياضيات واللغة الطبيعية.
- التدريب المسبق: يستخدم تدريب xGen-small وحدات معالجة TPU v5p مع مكتبة Jaxformer v8، مع تنفيذ FSDP، والانتباه المتوازي للتسلسلات، ونواة Splash للحصول على أقصى قدر من الكفاءة. يُحسّن جدول معدل التعلم ذو المراحل المتعددة ديناميكيات التدريب.
- التدريب اللاحق والتعلم المعزز: يُحوّل التدريب اللاحق نماذج xGen-small الأساسية إلى نماذج تعليمات شاملة من خلال عملية من مرحلتين: ضبط مُشرف، ثم تعلم معزز واسع النطاق.
الأداء والكفاءة:
يُظهر xGen-small أداءً تنافسياً مقابل المعايير الرائدة في فئته من حيث الحجم. يُحقق المزيج الاستراتيجي لأنواع البيانات المتنوعة، بما في ذلك الرموز منخفضة الانتروبيا، واللغة الطبيعية عالية الانتروبيا، والمحتوى الرياضي، ومجموعات فرعية عالية الجودة تم تصفيتها بواسطة مُصنّفات، نتائج استثنائية عبر مقاييس التقييم مع الحفاظ على تصميم النموذج الصغير والفعال. يُظهر تقييم الأداء قدرات xGen-small الاستثنائية في السياق الطويل، حيث حقق نموذج 9 مليارات معلمة نتائج متقدمة في مقياس RULER، وحصل نموذج 4 مليارات معلمة على المركز الثاني في فئته. على عكس المنافسين الذين يتدهور أداءهم بشكل كبير عند أطوال السياق الممتدة، يحافظ xGen على أداء ثابت من 4 كيلوبايت إلى 128 كيلوبايت من الرموز.
الاستنتاج:
يُثبت تطوير xGen-small أن تقييد حجم النموذج عمداً مع توسيع سعة السياق يُخلق حلولاً مثالية لتطبيقات الذكاء الاصطناعي للشركات. يُقلل هذا النهج “الصغير لكن الطويل” بشكل كبير من تكاليف الاستدلال ومتطلبات الأجهزة مع تمكين معالجة سلسة لمصادر المعرفة الداخلية الواسعة بدون تبعيات الاسترجاع الخارجية. من خلال خط أنابيب متكامل من معالجة البيانات الدقيقة، والتدريب القابل للتوسع، وتوسيع الطول المُستهدف، والتعلم المعزز، تُطابق هذه النماذج الصغيرة أو تتجاوز أداء نظيراتها الأكبر. يُوفر هذا التصميم للشركات إطار عمل قابل للتنبؤ، ومستدام، وفعال من حيث التكلفة، ويحافظ على الخصوصية لنشر الذكاء الاصطناعي على نطاق واسع في الشركات.
اترك تعليقاً