نموذج اللغة الكبير مفتوح المصدر TildeOpen: ثورة في معالجة اللغات الأوروبية

أطلقت شركة Tilde التكنولوجية اللاتفية نموذجها الجديد للغة الكبيرة مفتوح المصدر، TildeOpen LLM، والذي يمثل نقلة نوعية في مجال معالجة اللغات، خاصةً اللغات الأوروبية الأقل تمثيلًا. يُعد هذا الإصدار خطوة استراتيجية نحو تحقيق العدالة اللغوية والسيادة الرقمية داخل الاتحاد الأوروبي.

بنية النموذج، تدريبه، وإدارته

تم إطلاق النموذج رسميًا في الثالث من سبتمبر 2025، وجعله متاحًا مجانًا للمستخدمين عبر منصة Hugging Face. يعتمد TildeOpen على بنية مُحوّل (Transformer) كثيف ذو فك تشفير فقط، ويضم 30 مليار معلمة، وهو متوفر بموجب ترخيص مرخص (CC-BY-4.0) ويدعم مجموعة واسعة من اللغات، بدءًا من اللاتفية والليتوانية ووصولاً إلى الأوكرانية والتركية وغيرها.

تم تدريب النموذج على حواسيب عملاقة تابعة للاتحاد الأوروبي: LUMI (فنلندا) وJUPITER، مستخدمًا 2 مليون ساعة من معالجات رسوميات (GPU) مُخصصة من خلال تحدي الذكاء الاصطناعي الكبير التابع للمفوضية الأوروبية. وتفصيلًا، تم التدريب باستخدام نصوص مستوحاة من EleutherAI-GPT-NeoX عبر 450 ألف تحديث، واستهلاك ما يقرب من تريليوني رمز. وقد تضمن التدريب ثلاث مراحل من أخذ العينات:

  • مرحلة موحدة عبر اللغات: توزيع متساوي لجميع اللغات.
  • مرحلة التوزيع الطبيعي: تعزيز اللغات ذات حجم البيانات العالي.
  • مرحلة مسح موحدة نهائية: تحقيق التوازن بين جميع اللغات.

أما المعلمات الفائقة (Hyperparameters) فكانت كالتالي:

  • 60 طبقة.
  • حجم التضمين 6144.
  • 48 رأسًا للانتباه.
  • نافذة سياقية 8192 رمزًا.
  • تنشيطات SwiGLU.
  • ترميز الموضع RoPE.
  • معايير طبقة RMSNorm.

العدالة اللغوية والسيادة على البيانات

تعتمد نماذج اللغة الرئيسية بشكل كبير على اللغة الإنجليزية ولغات رئيسية أخرى، مما يؤدي إلى نتائج منحازة عند التعامل مع اللغات البلطيقية، السلافية، أو غيرها من اللغات الأوروبية الأصغر. يؤدي هذا التمثيل غير المتكافئ إلى أخطاء نحوية، صياغة غريبة، و “هلوسات” (أخطاء في توليد معلومات غير دقيقة). يُحل TildeOpen هذه المشكلة من خلال دمج “معالج رمزي عادل” (Equitable Tokenizer)، مصمم لتمثيل النصوص بشكل متشابه بغض النظر عن اللغة، مما يقلل من عدد الرموز ويزيد من كفاءة الاستدلال للغات الأقل تمثيلًا.

ومن الأهمية بمكان أن بإمكان المؤسسات استضافة النموذج ذاتيًا في مراكز بيانات محلية أو سُحُب آمنة متوافقة مع معايير الاتحاد الأوروبي، مما يضمن الالتزام بـ GDPR وغيرها من قوانين حماية البيانات. وهذا يعالج المخاوف المتعلقة بالسيادة المرتبطة بنماذج اللغة المُستضافة في الولايات المتحدة أو آسيا.

الأفق الاستراتيجي: من النموذج الأولي إلى البنية التحتية للذكاء الاصطناعي الأوروبي

يُعتبر TildeOpen نموذجًا أساسيًا (“نموذجًا أساسياً”). ومن المتوقع ظهور إصدارات قادمة أكثر تخصصًا (مثل نماذج الترجمة المُدرّبة على التعليمات) مبنية على هذا النموذج الأساسي. كما أنه يُمثل لحظة مهمة للاتفيا، حيث تضع نفسها كجهة مُصدرة للتكنولوجيا، مع طموحات لتوسيع نطاق البنية التحتية للذكاء الاصطناعي الأوروبي مع الحفاظ على التنوع اللغوي.

أما من ناحية البحث، فيُعكس هذا التحرك اتجاهًا أوسع في البحث حول سلوك النماذج متعددة اللغات، حيث لا تزال هناك فجوات. تُظهر التقييمات أن حتى نماذج اللغة المفتوحة القوية قد تُحدث هلوسات أو تتأخر في الدقة اللغوية للغات البلطيقية، مما يعزز الحاجة إلى تطوير محلي.

ملخص

يعيد TildeOpen LLM تشكيل مفهوم الذكاء الاصطناعي في الاتحاد الأوروبي، ليس فقط من خلال الامتثال للوائح، بل من خلال الإشراف التقني. إنه نموذج متين وعالي القدرة يتميز ببنية شفافة، ونشر قابل للتطوير، والتزام قوي بالعدالة اللغوية. لا يُروج TildeOpen للمبالغات، بل يقدم نتائج ملموسة.

أسئلة شائعة

س1: ما هو TildeOpen LLM؟

TildeOpen هو نموذج لغة كبير ومتعدد اللغات، يحتوي على 30 مليار معلمة، وقد تم تدريبه على حواسيب عملاقة تابعة للاتحاد الأوروبي، وهو مُحسّن للغات الأوروبية، خاصةً اللغات الأقل تمثيلًا.

س2: ما هو الاختلاف بينه وبين نماذج اللغة الرئيسية الأخرى؟

على عكس النماذج العالمية التي تُعطي الأولوية للغة الإنجليزية، يستخدم TildeOpen مُعالجًا رمزيًا عادلًا وتدريبًا متوازنًا لضمان تمثيل دقيق وعادل للغات الأوروبية الأصغر.

س3: هل يمكن للمؤسسات استضافة النموذج ذاتيًا؟

نعم، TildeOpen مفتوح المصدر بموجب ترخيص CC-BY-4.0 ويمكن نشره في مراكز البيانات المحلية أو السُحُب المتوافقة مع معايير الاتحاد الأوروبي لتلبية متطلبات GDPR والسيادة على البيانات.

س4: ما هي أهم استخدامات TildeOpen؟

خدمات حكومية، الترجمة، التعليم، المساعدون الافتراضيون، تقنيات الكلام، ودعم العملاء متعدد اللغات – أي مجال يتطلب معالجة دقيقة للغات الأوروبية.

يمكنكم الاطلاع على النموذج على Hugging Face والتفاصيل الفنية هنا. كما يمكنكم زيارة صفحة GitHub الخاصة بنا للحصول على دروس تعليمية، أكواد، ومذكرات. تابعونا أيضًا على تويتر وانضموا إلى مجتمعنا على Reddit واشتركوا في نشرتنا الإخبارية.

المصدر: MarkTechPost