حدود التضمينات: اكتشاف خلل جوهري في أنظمة توليد النصوص المعززة بالاسترجاع
تعتمد أنظمة توليد النصوص المعززة بالاسترجاع (RAG) بشكل عام على نماذج تضمين كثيفة تقوم بتعيين الاستعلامات والوثائق في مساحات متجهة ذات أبعاد ثابتة. بينما أصبح هذا النهج هو النهج الافتراضي للعديد من تطبيقات الذكاء الاصطناعي، إلا أن بحثًا حديثًا من فريق جوجل ديب مايند يكشف عن قيد معماري أساسي لا يمكن حله بمجرد استخدام نماذج أكبر أو تدريب أفضل.
الحد النظري لأبعاد التضمين
تكمن جوهر المشكلة في القدرة التمثيلية للتضمينات ذات الحجم الثابت. لا يمكن لتضمين ذي بعد d تمثيل جميع التركيبات الممكنة للوثائق ذات الصلة بمجرد تجاوز حجم قاعدة البيانات حجمًا حرجًا. ويترتب على ذلك نتائج في تعقيد الاتصال ونظرية الرتبة الإشارية. بالنسبة للتضمينات ذات الحجم 512، ينهار الاسترجاع عند حوالي 500 ألف وثيقة. بالنسبة للأبعاد 1024، يمتد الحد إلى حوالي 4 ملايين وثيقة. بالنسبة للأبعاد 4096، يكون الحد الأقصى النظري 250 مليون وثيقة. هذه القيم هي تقديرات مثالية مشتقة في ظل تحسين تضمين حر، حيث يتم تحسين المتجهات مباشرةً مقابل تسميات الاختبار. لكن التضمينات المقيدة باللغة في العالم الحقيقي تفشل مبكرًا. https://arxiv.org/pdf/2508.21038
كيف يكشف معيار LIMIT هذه المشكلة؟
لاختبار هذا القيد تجريبيًا، قدم فريق جوجل ديب مايند معيار LIMIT (قيود التضمينات في استرجاع المعلومات)، وهي مجموعة بيانات مرجعية مصممة خصيصًا لاختبار المُضَمِّنات تحت ضغط شديد. يحتوي LIMIT على تكوينين:
- LIMIT الكامل (50 ألف وثيقة): في هذا الإعداد واسع النطاق، حتى المُضَمِّنات القوية تنهار، حيث غالبًا ما يقل معدل الاستدعاء@100 عن 20%.
- LIMIT الصغير (46 وثيقة): على الرغم من بساطة هذا الإعداد الصغير، إلا أن النماذج لا تزال تفشل في حل المهمة. تختلف الأداء اختلافًا كبيرًا، لكنه يظل بعيدًا عن الموثوقية:
- Promptriever Llama3 8B: 54.3% معدل استدعاء@2 (4096d)
- GritLM 7B: 38.4% معدل استدعاء@2 (4096d)
- E5-Mistral 7B: 29.5% معدل استدعاء@2 (3072d)
- Gemini Embed: 33.7% معدل استدعاء@2 (3072d)
حتى مع وجود 46 وثيقة فقط، لا يصل أي مُضَمِّن إلى الاستدعاء الكامل، مما يبرز أن القيد ليس حجم مجموعة البيانات وحده، بل بنية التضمين أحادي المتجه نفسها. على النقيض من ذلك، لا تعاني BM25، وهي نموذج لغوي نادر كلاسيكي، من هذا الحد الأقصى. تعمل النماذج النادرة في مساحات ذات أبعاد غير محدودة فعليًا، مما يسمح لها بالتقاط تركيبات لا تستطيع التضمينات الكثيفة التقاطها. https://arxiv.org/pdf/2508.21038
أهمية هذا الاكتشاف لأنظمة RAG
تفترض عمليات تنفيذ RAG الحالية عادةً أن التضمينات يمكن أن تتوسع بلا حدود مع المزيد من البيانات. يشرح فريق بحث جوجل ديب مايند كيف أن هذا الافتراض غير صحيح: حجم التضمين يقيد بشكل جوهري قدرة الاسترجاع. وهذا يؤثر على:
- محركات البحث المؤسسية التي تتعامل مع ملايين الوثائق.
- الأنظمة الوكيلة التي تعتمد على استعلامات منطقية معقدة.
- مهام استرجاع المتابعة التعليمات، حيث تحدد الاستعلامات الصلة ديناميكيًا.
حتى المعايير المتقدمة مثل MTEB تفشل في التقاط هذه القيود لأنها تختبر جزءًا ضيقًا فقط من تركيبات الاستعلام-الوثيقة.
بدائل التضمينات أحادية المتجه
اقترح فريق البحث أن الاسترجاع القابل للتطوير سيتطلب الانتقال إلى ما هو أبعد من التضمينات أحادية المتجه:
- المشفرون المتقاطعون: يحققون استدعاءً مثاليًا على LIMIT من خلال تسجيل أزواج الاستعلام-الوثيقة مباشرةً، ولكن على حساب زمن استنتاج عالٍ.
- نماذج متعددة المتجهات (مثل ColBERT): تقدم استرجاعًا أكثر تعبيرًا من خلال تعيين متجهات متعددة لكل تسلسل، مما يحسن الأداء في مهام LIMIT.
- نماذج نادرة (BM25، TF-IDF، مُسترجِعات عصبية نادرة): تتوسع بشكل أفضل في البحث متعدد الأبعاد، لكنها تفتقر إلى التعميم الدلالي.
الفكرة الرئيسية هي أن الابتكار المعماري مطلوب، وليس مجرد مُضَمِّنات أكبر.
الخلاصة الرئيسية
يُظهر تحليل فريق البحث أن التضمينات الكثيفة، على الرغم من نجاحها، مقيدة بحد رياضي: لا يمكنها التقاط جميع تركيبات الصلة الممكنة بمجرد تجاوز أحجام النصوص حدودًا مرتبطة بأبعاد التضمين. يُظهر معيار LIMIT هذا الفشل بشكل ملموس:
- على LIMIT الكامل (50 ألف وثيقة): ينخفض معدل الاستدعاء@100 إلى أقل من 20%.
- على LIMIT الصغير (46 وثيقة): حتى أفضل النماذج تصل إلى أقصى حد عند حوالي 54% معدل استدعاء@2.
تظل التقنيات الكلاسيكية مثل BM25، أو الهندسة المعمارية الأحدث مثل المُسترجِعات متعددة المتجهات والمشفرون المتقاطعون، ضرورية لبناء محركات استرجاع موثوقة على نطاق واسع.
تحقق من الورقة البحثية هنا: https://arxiv.org/pdf/2508.21038 تابعونا على تويتر، وانضموا إلى مجتمعنا على ريديت، واشتركوا في قائمتنا البريدية.
اترك تعليقاً