نماذج قوين3: ثورة في معالجة النصوص متعددة اللغات
يُعدّ استخراج المتجهات النصية (Embedding) وإعادة الترتيب (Reranking) من العمليات الأساسية في أنظمة استرجاع المعلومات الحديثة، حيث تُستخدم في تطبيقات متنوعة مثل البحث الدلالي، وأنظمة التوصية، وتوليد النصوص المعزز باسترجاع المعلومات (RAG). لكنّ الطرق الحالية تواجه تحديات رئيسية، خاصةً في تحقيق الدقة العالية في اللغات المتعددة وقابلية التكيف مع المهام المختلفة، دون الاعتماد على واجهات برمجة التطبيقات (APIs) الخاصة. غالبًا ما تُعاني النماذج الحالية من قصور في السيناريوهات التي تتطلب فهمًا دقيقًا للدلالات عبر لغات متعددة أو مهام محددة مثل استرجاع الشفرات البرمجية واتباع التعليمات. علاوة على ذلك، تفتقر معظم النماذج مفتوحة المصدر إلى الحجم أو المرونة، بينما تظلّ واجهات برمجة التطبيقات التجارية مكلفة ومغلقة.
قوين3-استخراج المتجهات وقوين3-إعادة الترتيب: معيار جديد لاستخراج المتجهات مفتوحة المصدر
كشفت مجموعة قوين التابعة لشركة علي بابا عن سلسلة نماذج قوين3-استخراج المتجهات (Qwen3-Embedding) وقوين3-إعادة الترتيب (Qwen3-Reranker)، والتي تُحدد معيارًا جديدًا في استخراج المتجهات النصية متعددة اللغات وترتيب الصلة بالموضوع. بُنيت هذه السلسلة على نماذج قوين3 الأساسية، وتتضمن اختلافات في حجم المعلمات (0.6 مليار، 4 مليارات، و8 مليارات معلمة)، وتدعم مجموعة واسعة من اللغات (119 لغة في المجموع)، مما يجعلها واحدة من أكثر العروض مفتوحة المصدر تنوعًا وأداءً حتى الآن. تمّ نشر هذه النماذج مفتوحة المصدر بموجب ترخيص Apache 2.0 على منصات Hugging Face وGitHub وModelScope، وهي متاحة أيضًا عبر واجهات برمجة تطبيقات علي بابا Cloud.
تمّ تحسين هذه النماذج للاستخدام في حالات مثل الاسترجاع الدلالي، والتصنيف، وRAG، وتحليل المشاعر، والبحث عن الشفرات البرمجية، مما يوفر بديلاً قويًا للحلول الحالية مثل Gemini Embedding وواجهات برمجة تطبيقات استخراج المتجهات من OpenAI.
البنية التقنية
-
نماذج قوين3-استخراج المتجهات: تعتمد على بنية مُحوّل كثيفة (Dense Transformer) مع انتباه سببي (Causal Attention)، حيث تُنتج المتجهات من خلال استخراج الحالة الخفية المُقابلة لرمز نهاية الجملة ([EOS]). ميزة أساسية هي وعيها بالتعليمات: حيث يتمّ تنسيق استفسارات الإدخال على شكل {تعليمة} {استفسار}<|endoftext|>، مما يُمكّن من استخراج متجهات مُكيّفة حسب المهمة.
-
نماذج قوين3-إعادة الترتيب: تم تدريبها باستخدام تنسيق تصنيف ثنائي، حيث تُقيّم صلة الوثيقة بالاستفسار بطريقة مُوجهة بالتعليمات باستخدام دالة تسجيل تعتمد على احتمالية الرمز.
-
عملية التدريب: تم تدريب النماذج باستخدام خط أنابيب تدريب متعدد المراحل قوي:
- الإشراف الضعيف على نطاق واسع: تمّ توليد 150 مليون زوج تدريبي اصطناعي باستخدام Qwen3-32B، تغطي استرجاع المعلومات، والتصنيف، وقياس التشابه الدلالي (STS)، واستخراج النصوص ثنائية اللغة عبر اللغات والمهام.
- التحسين الدقيق المُشرف عليه: تمّ اختيار 12 مليون زوج بيانات عالية الجودة باستخدام تشابه جيب التمام (>0.7)، لتحسين الأداء في التطبيقات التابعة.
- دمج النماذج: يتم استخدام الاستيفاء الخطي الكروي (SLERP) لعدة نقاط فحص مُحسّنة، لضمان المتانة والتعميم.
يُمكّن خط أنابيب توليد البيانات الاصطناعية هذا من التحكم في جودة البيانات، وتنوع اللغات، وصعوبة المهمة، وغير ذلك، مما يؤدي إلى درجة عالية من التغطية والصلة في الإعدادات ذات الموارد المنخفضة.
مقاييس الأداء والرؤى
أظهرت سلسلة نماذج قوين3-استخراج المتجهات وقوين3-إعادة الترتيب أداءً تجريبيًا قويًا عبر العديد من معايير الأداء متعددة اللغات:
- MMTEB (216 مهمة عبر أكثر من 250 لغة): حقّق نموذج قوين3-استخراج المتجهات-8 مليار معلمة متوسط درجة مهمة قدره 70.58، متجاوزًا Gemini وسلسلة GTE-Qwen2.
- MTEB (الإصدار الإنجليزي الثاني): وصل نموذج قوين3-استخراج المتجهات-8 مليار معلمة إلى 75.22، متفوقًا على النماذج المفتوحة المصدر الأخرى بما في ذلك NV-Embed-v2 وGritLM-7B.
- MTEB-Code: قاد نموذج قوين3-استخراج المتجهات-8 مليار معلمة بنتيجة 80.68، متفوقًا في تطبيقات مثل استرجاع الشفرات البرمجية وأسئلة وأجوبة Stack Overflow.
- إعادة الترتيب: تجاوز نموذج قوين3-إعادة الترتيب-0.6 مليار معلمة بالفعل مُرتّبي Jina وBGE. حقّق نموذج قوين3-إعادة الترتيب-8 مليار معلمة 81.22 على MTEB-Code و72.94 على MMTEB-R، مُحققًا أداءً متطورًا.
أكدت دراسات الاستبعاد ضرورة كل مرحلة من مراحل التدريب. أدى إزالة التدريب المسبق الاصطناعي أو دمج النماذج إلى انخفاض كبير في الأداء (حتى 6 نقاط على MMTEB)، مما يُبرز مساهماتها.
الخلاصة
تُقدم سلسلة نماذج قوين3-استخراج المتجهات وقوين3-إعادة الترتيب من علي بابا حلاً قويًا، ومفتوحًا، وقابلًا للتطوير لتمثيل دلالي متعدد اللغات وواعٍ بالتعليمات. مع نتائج تجريبية قوية عبر MTEB وMMTEB وMTEB-Code، تُسدّ هذه النماذج الفجوة بين واجهات برمجة التطبيقات الخاصة وإمكانية الوصول مفتوحة المصدر. يُضع تصميم التدريب المُدروس – الذي يستخدم بيانات اصطناعية عالية الجودة، والضبط حسب التعليمات، ودمج النماذج – هذه النماذج كمرشّحين مثاليين للتطبيقات المؤسسية في البحث، واسترجاع المعلومات، وأنابيب RAG. من خلال نشر هذه النماذج مفتوحة المصدر، لا تُقدّم مجموعة قوين مجرد دفع حدود فهم اللغة فحسب، بل تُمكّن أيضًا المجتمع الأوسع من الابتكار على أساس متين.







اترك تعليقاً