UniversalRAG: إطار عمل جديد للبحث المتعدد الوسائط في توليد النصوص المعزز بالاسترجاع
تُعد تقنية توليد النصوص المعززة بالاسترجاع (RAG) فعالة في تعزيز دقة المعلومات في نماذج اللغات الكبيرة (LLMs) من خلال ربط مخرجاتها بمعلومات خارجية ذات صلة. ومع ذلك، تقتصر معظم تطبيقات RAG الحالية على النصوص فقط، مما يحد من فعاليتها في السيناريوهات الواقعية التي تتطلب استفسارات متنوعة تتجاوز النصوص، لتشمل الصور والفيديوهات. في حين أن بعض الأساليب الحديثة وسعت نطاق RAG ليشمل الوسائط المتعددة، إلا أنها غالباً ما تقتصر على مجموعة بيانات محددة بنوع الوسيط الواحد، مما يحد من قدرتها على الاستجابة بكفاءة لمجموعة واسعة من استفسارات المستخدمين التي تتطلب استنتاجات متعددة الوسائط.
تحديات تقنيات RAG التقليدية
- الاسترجاع الأحادي الوسيط: تقتصر معظم تقنيات RAG الحالية على البحث في نوع واحد من البيانات (نصوص فقط مثلاً)، مما يحد من قدرتها على معالجة استفسارات تتطلب بيانات من مصادر متعددة.
- عدم الكفاءة في الاسترجاع: تقوم الطرق الحالية عادةً باسترجاع المعلومات من جميع الوسائط دون تمييز أيها الأكثر صلة باستفسار معين، مما يجعل العملية غير فعالة وقليلة التكيف مع الاحتياجات الخاصة بالمعلومات.
- قصور في دقة الاسترجاع: يؤثر مستوى تفاصيل الاسترجاع (granularity) بشكل كبير على دقة النتائج. فاستخدام مستويات تفاصيل دقيقة، مثل الجمل أو مقاطع الفيديو، يحسن من صلة الاسترجاع وأداء النظام.
UniversalRAG: الحل الأمثل
للتغلب على هذه التحديات، قام باحثون من KAIST و DeepAuto.ai بتقديم UniversalRAG، وهو إطار عمل جديد لـ RAG يسترجع المعلومات ويدمجها من مصادر متعددة الوسائط (نصوص، صور، فيديوهات) ومستويات تفاصيل متعددة. على عكس النهج التقليدية التي تُدمج جميع الوسائط في مساحة مشتركة، مما يؤدي إلى تحيز الوسائط، يستخدم UniversalRAG آلية توجيه مدركة للوسائط لاختيار مجموعة البيانات الأكثر صلة ديناميكيًا بناءً على الاستفسار. كما أنه يُعزز دقة الاسترجاع من خلال تنظيم كل وسيط في مجموعات بيانات محددة بالتفاصيل، مثل الفقرات أو مقاطع الفيديو.
آلية عمل UniversalRAG:
- وحدة التوجيه (Routing Module): تحدد هذه الوحدة الوسيط الأمثل ومستوى التفاصيل المناسب لكل استفسار، وذلك من خلال خيارات مثل الفقرات، الوثائق الكاملة، مقاطع الفيديو، أو الفيديو الكامل. يمكن أن تكون هذه الوحدة مصنّفًا قائمًا على نماذج اللغات الكبيرة (LLMs) بدون تدريب، أو نموذجًا مدربًا باستخدام تسميات استنتاجية من مجموعات بيانات قياسية.
- نموذج توليد النصوص المعزز بالاسترجاع (LVLM): يستخدم هذا النموذج المحتوى الذي تم اختياره من قبل وحدة التوجيه لإنشاء الاستجابة النهائية.
تجربة UniversalRAG:
تم تقييم UniversalRAG عبر ثمانية معايير قياسية متعددة الوسائط، متفوقًا باستمرار على الأساليب المرجعية الموحدة والمتخصصة في الوسائط المفردة، مما يدل على قدرته على التكيف مع احتياجات الاستفسارات المتنوعة. شملت سيناريوهات الاسترجاع:
- بدون استرجاع: اختبار المعرفة العامة.
- مستوى الفقرة: باستخدام مجموعات بيانات SQuAD و Natural Questions.
- مستوى الوثيقة: باستخدام مجموعة بيانات HotpotQA.
- استفسارات الصور: باستخدام مجموعة بيانات WebQA.
- استفسارات الفيديو: باستخدام مجموعات بيانات LVBench و VideoRAG، مقسمة إلى مستوى المقطع والفيديو الكامل.
الخلاصة
يُعد UniversalRAG إطار عمل متقدم لتوليد النصوص المعززة بالاسترجاع، قادر على استرجاع المعلومات من مصادر متعددة الوسائط ومستويات تفاصيل متعددة. على عكس طرق RAG الحالية التي تعتمد على مجموعة بيانات واحدة، غالبًا ما تكون نصية فقط، أو مصدر أحادي الوسيط، يقوم UniversalRAG بتوجيه الاستفسارات ديناميكيًا إلى مجموعة البيانات الأكثر ملاءمة من حيث الوسيط ومستوى التفاصيل. يُعالج هذا النهج مشكلات مثل فجوات الوسائط وهياكل الاسترجاع الجامدة. أثبت UniversalRAG تفوقه على الأساليب المرجعية الموحدة والمتخصصة في الوسائط المفردة، مما يؤكد أهمية الاسترجاع الدقيق وآلية التوجيه المرنة في مجال الاستدلال متعدد الوسائط.
اترك تعليقاً