مقارنة تقنية متقدمة: استرجاع المعرفة المُعزّز بالرؤية مقابل استرجاع المعرفة المُعزّز بالنصوص للبحث المؤسسي
تُعَدّ عملية استرجاع المعلومات المُعزّزة بالذكاء الاصطناعي (RAG) تقنيةً أساسيةً في مجال البحث المؤسسي، لكنّ العديد من حالات الفشل في هذه العملية تنبع من مرحلة الاسترجاع، وليس من مرحلة توليد النصوص. تُعاني أنظمة استرجاع المعرفة المُعزّزة بالنصوص (Text-RAG) من فقدان دلالات التنسيق، وهياكل الجداول، وربط الصور بالشرح النصي أثناء تحويل ملفات PDF إلى نصوص، مما يُؤدّي إلى انخفاض دقة الاسترجاع قبل حتى تشغيل نماذج اللغات الكبيرة (LLMs). لذلك، ظهرت تقنية استرجاع المعرفة المُعزّزة بالرؤية (Vision-RAG) كحلّ بديل، حيث تستهدف مباشرةً هذه المُعضلة من خلال استرجاع الصفحات المُرَسّمة باستخدام مُضمّنات لغة ورؤية، مُحقّقةً بذلك مكاسب مادية في الأداء الشامل، خاصةً مع المُعطيات الغنية بالصور.
مقارنة بين أنظمة Text-RAG و Vision-RAG:
Text-RAG:
- خطوات العملية: PDF → (محلل/OCR) → أجزاء نصية → مُضمّنات نصية → فهرس تقريبي للبحث (ANN) → استرجاع → نموذج لغة كبير (LLM).
- أوجه القصور النموذجية: ضجيج OCR، كسر تدفق الأعمدة المتعددة، فقدان بنية خلايا الجدول، وفقدان دلالات الأشكال والرسوم البيانية – كما تُثبت معايير تقييم جودة الإجابة على الأسئلة المتعلقة بالجداول والوثائق.
Vision-RAG:
- خطوات العملية: PDF → رسمة صفحة (أو أكثر) → مُضمّنات لغة ورؤية (غالباً متعددة المتجهات مع تقييم متأخر للتفاعل) → فهرس تقريبي للبحث (ANN) → استرجاع → مُضمّنات لغة ورؤية/نموذج لغة كبير (VLM/LLM) يستخدم اقتصاصات عالية الدقة أو صفحات كاملة.
- المزايا: يحافظ على التنسيق وربط الصور بالنصوص. أثبتت أنظمة حديثة مثل ColPali و VisRAG و VDocRAG نجاح هذا النهج.
دلائل على فعالية استرجاع صور الوثائق:
- تبسيط العملية وزيادة الكفاءة: يستخدم نظام ColPali مُضمّنات لصور الصفحات مع مطابقة متأخرة للتفاعل، متفوقاً على أنظمة النصوص الحديثة في معيار ViDoRe مع إمكانية التدريب الشامل.
- تحسين الأداء الشامل: يُظهر نظام VisRAG تحسيناً بنسبة 25-39% في الأداء الشامل مقارنةً بنظام Text-RAG في الوثائق متعددة الوسائط عندما يستخدم كل من الاسترجاع والتوليد مُضمّنات لغة ورؤية.
- تنسيق صورة موحد: يُبرهن نظام VDocRAG على أنّ الاحتفاظ بالوثائق بتنسيق صورة موحد (جداول، رسوم بيانية، عروض تقديمية PDF) يُجنّب فقدان البيانات الناتج عن التحليل ويُحسّن التعميم. كما يُقدّم نظام VDocRAG معيار OpenDocVQA للتقييم.
- أهمية الدقة: ترتبط دقة النتائج ارتباطاً وثيقاً بدقة الصور في مُضمّنات لغة ورؤية (مثل Qwen2-VL/Qwen2.5-VL)، حيث تُؤثّر جودة العناصر الدقيقة مثل العلامات، والأسس العلوية، والطوابع، والخطوط الصغيرة.
التكلفة واعتبارات التصميم:
- تكلفة سياق الرؤية: تكون مُضمّنات الرؤية (غالباً) أكبر حجماً من حيث عدد الرموز، حيث تُضخم مدخلات الصور عدد الرموز عبر تقسيم الصور إلى أقسام مُربّعة، وليس بالضرورة سعر كل رمز على حدة. تُشير توصيات شركة Anthropic إلى الحد الأقصى لحجم الصور بحوالي 1.15 ميجابكسل (حوالي 1600 رمز) للحفاظ على الاستجابة السريعة. على النقيض، يُحدّد نظام Google Gemini 2.5 Flash-Lite نفس السعر لكل رمز للصور والنصوص والفيديو، لكنّ الصور الكبيرة لا تزال تستهلك عدداً أكبر بكثير من الرموز.
- التصميم الأمثل لنظام Vision-RAG:
- المواءمة بين الوسائط: استخدام مُشفّرات مُدرّبة على محاذاة النصوص والصور (مثل عائلة CLIP أو مُسترجِعات لغة ورؤية)، وفهرسة مزدوجة: استرجاع نصي رخيص للتغطية + إعادة ترتيب بصري للدقة.
- إدخال بيانات عالية الدقة بشكل انتقائي: اتباع نهج دقيق: تشغيل BM25/DPR، أخذ أفضل K صفحة إلى مُعيد ترتيب بصري، ثم إرسال اقتصاصات ROI (جداول، رسوم بيانية، طوابع) فقط إلى المُولّد.
- معالجة الجداول والرسوم البيانية: في حالة الجداول، استخدام نماذج بنية الجداول (مثل PubTables-1M/TATR) أو الأفضل هو الاعتماد على الاسترجاع من الصور. بالنسبة للرسوم البيانية، يجب مراعاة العلامات والتسميات، مع الحفاظ على الدقة العالية للصورة.
- الوثائق ذات الخلفية المعقدة: تُفيد معالجة الصور في تجنب العديد من أوجه قصور OCR، مثل الكتابة المتعددة اللغات والمسح الضوئي المُدار.
- التوثيق: تخزين مُعرّفات الصفحات وإحداثيات الاقتصاصات مع المُضمّنات لإعادة إنتاج الأدلة البصرية المُستخدمة في الإجابات.
متى يُفضّل استخدام Text-RAG و متى يُفضّل Vision-RAG؟
الميزة | Text-RAG | Vision-RAG |
---|---|---|
مناسب لـ | مُعطيات نصية نظيفة، قيود صارمة على التكلفة والسرعة | وثائق مؤسسية غنية بالصور، جداول، رسوم بيانية، مسح ضوئي مُدار، كتابة متعددة اللغات |
أوجه القصور | فقدان بنية الوثيقة، عدم دقة الاسترجاع | حساسية للدقة، تكلفة مُضمّنات الصور الكبيرة |
الاستخدام الأمثل | عقود، قواعد بيانات، بيانات منظمّة (CSV/Parquet) | وثائق مؤسسية مع تنسيق معقد، عمليات تتطلب دقة عالية |
أنظمة تمثيلية | DPR/BM25 + إعادة ترتيب مُشفّر متقاطع | ColPali، VisRAG، VDocRAG |
الخاتمة:
يُظلّ نظام Text-RAG فعّالاً للمُعطيات النظيفة التي تعتمد بشكل أساسي على النصوص. أمّا نظام Vision-RAG فهو الخيار الأفضل للوثائق المؤسسية التي تحتوي على عناصر تصميمية، جداول، رسوم بيانية، طوابع، مسح ضوئي، وكتابة متعددة اللغات. تُحقّق الفرق التي تُوائم بين الوسائط، وتُقدّم أدلة بصرية عالية الدقة بشكل انتقائي، وتُقيّم الأداء باستخدام معايير مُتعددة الوسائط، دقة استرجاع أعلى وإجابات أفضل.
(ملاحظة: تم حذف قائمة المراجع الطويلة للحفاظ على الإيجاز. يمكن إضافة روابط للمراجع الأصلية حسب الحاجة.)
اترك تعليقاً