نماذج اللغات الضخمة في أستراليا: دراسة شاملة

مقدمة

يشهد العالم تطوراً متسارعاً في مجال نماذج اللغات الضخمة (LLMs)، إلا أن المشهد الأسترالي في هذا المجال يختلف اختلافاً كبيراً عن نظرائه العالميين. فبينما تعتمد العديد من الدول على نماذج محلية التطوير، لا تزال أستراليا تعتمد بشكل أساسي على نماذج عالمية، مع محاولات محدودة لتطوير نماذجها الخاصة. سنستعرض في هذا المقال الوضع الحالي لتطوير ونشر نماذج اللغات الضخمة في أستراليا، مع التركيز على المشاريع المحلية والتحديات التي تواجهها، بالإضافة إلى مساهمة أستراليا في الأبحاث العالمية في هذا المجال.

نماذج اللغات الضخمة المحلية: مشروع “كنغر LLM”

يُعتبر مشروع “كنغر LLM” المحاولة الأبرز في أستراليا لتطوير نموذج لغوي ضخم مفتوح المصدر مصمم خصيصاً للغة الإنجليزية الأسترالية وثقافتها. يدير هذا المشروع اتحاد غير ربحي يضم عدة شركات تقنية رائدة، منها:

  • Katonic AI: الشركة الرائدة في المشروع.
  • RackCorp
  • NEXTDC
  • Hitachi Vantara
  • Hewlett Packard Enterprise

يهدف المشروع إلى بناء نموذج يفهم الفكاهة الأسترالية، والعامية، والمعايير القانونية والأخلاقية المحلية. ولكن، حتى أغسطس 2025، لم يتم تدريب النموذج بالكامل أو اختباره أو نشره علناً. يمكن تلخيص الوضع الحالي للمشروع كما يلي:

  • الهدف: إنشاء نموذج لغوي ضخم مفتوح المصدر مدرب على محتوى الويب الأسترالي، مع التركيز على سيادة البيانات والانسجام الثقافي المحلي.
  • التقدم: تم تحديد 4.2 مليون موقع ويب أسترالي لجمع البيانات، مع التركيز الأولي على 754,000 موقع. وقد تأخر عملية الزحف في أواخر عام 2024 بسبب المخاوف القانونية والمتعلقة بالخصوصية، ولم يتم إصدار أي مجموعة بيانات عامة أو نموذج.
  • النهج التقني: يستخدم برنامج الزحف “كنغر بوت” (Kangaroo Bot) الذي يحترم ملف robots.txt ويسمح للمواقع بالتخلي عن المشاركة. يتم معالجة البيانات في “مجموعة بيانات فيجي مايتي” (VegeMighty Dataset) وتنقيتها من خلال “خط أنابيب الحاجز المرجاني العظيم” (Great Barrier Reef Pipeline) لتدريب النموذج. لا تزال بنية النموذج وحجمه ومنهجية تدريبه غير معلنة.
  • الحوكمة: يعمل المشروع ككيان غير ربحي يعتمد على العمل التطوعي (حوالي 100 متطوع، و10+ مكافئ بدوام كامل). يتم البحث عن التمويل من العملاء المؤسسيين ومنح حكومية محتملة، لكن لم يتم الإعلان عن أي استثمار عام أو خاص كبير.
  • الجدول الزمني: كان من المقرر إطلاق المشروع في أكتوبر 2024، لكن حتى أغسطس 2025، لا يزال المشروع في مرحلة جمع البيانات والامتثال القانوني، دون تاريخ إصدار مؤكد لنموذج مدرب.

نشر النماذج العالمية في أستراليا

تتوفر نماذج عالمية مثل Claude 3.5 Sonnet (Anthropic)، وGPT-4 (OpenAI)، وLLaMA 2 (Meta) وتستخدم بنشاط في الأبحاث والصناعة الأسترالية. ويعود سبب اعتمادها إلى قدراتها المتفوقة، وسهولة الوصول إليها عبر مزودي خدمات الحوسبة السحابية (AWS، Azure، Google Cloud)، والتكامل مع سير العمل المؤسسي.

  • Claude 3.5 Sonnet: متوفر في منطقة سيدني التابعة لـ AWS منذ فبراير 2025، مما يتيح للمنظمات الأسترالية استخدام نموذج لغوي ضخم متطور مع الامتثال لإقامة البيانات.
  • GPT-4 وLLaMA 2: تُستخدم على نطاق واسع في الجامعات والشركات الناشئة والمؤسسات الأسترالية لإنشاء النماذج الأولية، وإنشاء المحتوى، وأتمتة المهام. غالبًا ما يصاحب استخدامها عملية ضبط دقيق على مجموعات البيانات المحلية لتحسين الصلة والدقة.

مثال: استخدم فريق من جامعة سيدني نموذج Claude لتحليل بيانات صوتية للحيتان، محققاً دقة 89.4% في الكشف عن حيتان مينكي – وهي زيادة كبيرة مقارنة بالطرق التقليدية (76.5%). يُظهر هذا المشروع كيف يمكن تكييف نماذج اللغات الضخمة العالمية لتلبية الاحتياجات العلمية المحلية، ولكنه يُبرز أيضاً اعتماد أستراليا على مزودي النماذج الخارجية.

مساهمات الأبحاث الأسترالية

تُشارك المؤسسات الأكاديمية الأسترالية بنشاط في أبحاث نماذج اللغات الضخمة، لكن تركيزها ينصب على التقييم، والإنصاف، وتكييف المجالات، والتطبيق – وليس على بناء نماذج أساسية جديدة واسعة النطاق. من الأمثلة على ذلك:

  • معيار BESSTIE من جامعة UNSW: إطار تقييم منهجي للمشاعر والسخرية في الإنجليزية الأسترالية والبريطانية والهندية. يكشف هذا المعيار عن ضعف أداء نماذج اللغات الضخمة العالمية باستمرار في اللغة الإنجليزية الأسترالية، خاصةً في الكشف عن السخرية.
  • نماذج اللغات الضخمة الطبية في جامعة Macquarie: قام الباحثون بضبط المتغيرات BERT (BioBERT، ALBERT) لإجابة الأسئلة الطبية، محققين أعلى الدرجات في المسابقات الدولية.
  • CSIRO Data61: تنشر أبحاثاً مؤثرة حول الأنظمة القائمة على العوامل باستخدام نماذج اللغات الضخمة، و الذكاء الاصطناعي الذي يحافظ على الخصوصية، وإدارة مخاطر النماذج.
  • شراكة جامعة أديلايد وCommBank: يهدف مركز CommBank للذكاء الاصطناعي الأساسي، الذي تم إنشاؤه في أواخر عام 2024، إلى تطوير تعلم الآلة للخدمات المالية، بما في ذلك الكشف عن الاحتيال والخدمات المصرفية الشخصية.

السياسات والاستثمارات والبيئة النظامية

  • السياسة الحكومية: طورت الحكومة الأسترالية إطاراً سياسياً قائماً على المخاطر للذكاء الاصطناعي، مع شفافية إلزامية، واختبار، ومساءلة للتطبيقات عالية الخطورة. أدخلت إصلاحات قانون الخصوصية في عام 2024 متطلبات جديدة للشفافية في مجال الذكاء الاصطناعي، مما يؤثر على كيفية اختيار النماذج ونشرها.
  • الاستثمار: وصلت رؤوس الأموال الاستثمارية في الشركات الناشئة الأسترالية العاملة في مجال الذكاء الاصطناعي إلى 1.3 مليار دولار أسترالي في عام 2024، حيث شكل الذكاء الاصطناعي ما يقرب من 30% من جميع الصفقات الاستثمارية في أوائل عام 2025. لكن معظم هذه الاستثمارات موجهة إلى شركات طبقة التطبيقات، وليس إلى تطوير النماذج الأساسية.
  • اعتماد الصناعة: وجدت دراسة استقصائية أجريت عام 2024 أن 71% من موظفي الجامعات الأسترالية يستخدمون أدوات الذكاء الاصطناعي التوليدية، وخاصة ChatGPT وClaude. ويتزايد اعتماد الشركات، لكنه غالباً ما يكون محدوداً بسبب متطلبات سيادة البيانات، والامتثال للخصوصية، وعدم وجود نماذج مصممة محلياً.
  • البنية التحتية الحاسوبية: لا تمتلك أستراليا بنية تحتية حاسوبية واسعة النطاق وذات سيادة وطنية لتدريب نماذج اللغات الضخمة. تعتمد معظم عمليات تدريب النماذج واسعة النطاق والاستدلال على مزودي خدمات الحوسبة السحابية الدوليين، على الرغم من أن منطقة سيدني التابعة لـ AWS تدعم الآن Claude 3.5 Sonnet على نطاق واسع.

خلاصة

يتسم مشهد نماذج اللغات الضخمة في أستراليا بأبحاث قوية مدفوعة بالتطبيقات، واعتماد مؤسسي متزايد، وتطوير سياسة نشط، لكنه يفتقر إلى نموذج أساسي واسع النطاق وذو سيادة وطنية. يُعتبر مشروع “كنغر LLM” إحدى الجهود المحلية المهمة، لكنه لا يزال في مراحله المبكرة ويواجه عقبات تقنية ومالية كبيرة. باختصار، أستراليا مستخدم ومُكيّف متطور لنماذج اللغات الضخمة، لكنها ليست بعد مُطوّرة لها. العناصر الأكثر أهمية واضحة: يُعتبر مشروع “كنغر LLM” خطوة هامة، لكنه ليس حلاً بعد؛ تهيمن النماذج العالمية لكن لها حدود محلية؛ والأبحاث والسياسات الأسترالية ذات مستوى عالمي في التقييم والتطبيق، وليس في الابتكار الأساسي.

المصدر: MarkTechPost