نموذج لامّا نيموترون نانو VL: ثورة في فهم الوثائق بالذكاء الاصطناعي
قدمّت شركة NVIDIA مؤخراً نموذج لامّا نيموترون نانو VL (Llama Nemotron Nano VL)، وهو نموذج لغوي بصري (VLM) مصمم لفهم الوثائق على مستوى النص الكامل بكفاءة ودقة عالية. يعتمد هذا النموذج على بنية لامّا 3.1 (Llama 3.1)، بالإضافة إلى مُشفّر بصري خفيف الوزن، مما يجعله مثاليًا للتطبيقات التي تتطلب تحليلًا دقيقًا لهياكل الوثائق المعقدة، مثل النماذج الممسوحة ضوئياً، والتقارير المالية، والرسوم البيانية التقنية.
نظرة عامة على النموذج و بنيته
يُدمج نموذج لامّا نيموترون نانو VL مُشفّر CRadioV2-H البصري مع نموذج لغوي مُدرّب على التعليمات Llama 3.1 8B، مُشكّلاً بذلك خط أنابيب قادرًا على معالجة المدخلات متعددة الوسائط بشكل مُتكامل، بما في ذلك الوثائق متعددة الصفحات التي تحتوي على عناصر بصرية ونصية. تمّ تحسين بنية النموذج لزيادة كفاءة معالجة الرموز، حيث يدعم سياقًا يصل طوله إلى 16000 رمز نصي وصورة. يستطيع النموذج معالجة صور متعددة بالإضافة إلى المدخلات النصية، مما يجعله مناسبًا للمهام متعددة الوسائط طويلة الأمد. يتم تحقيق محاذاة النصوص والصور عبر طبقات إسقاط وترميز موضعي دوراني مُصمم خصيصًا لدمج أجزاء الصور.
مراحل التدريب:
- المرحلة الأولى: تدريب مُتداخل بين النصوص والصور على مجموعات بيانات تجارية للصور والفيديو.
- المرحلة الثانية: ضبط تعليمات متعددة الوسائط لتمكين الإرشادات التفاعلية.
- المرحلة الثالثة: إعادة مزج بيانات التعليمات النصية فقط، لتحسين الأداء على معايير نماذج اللغات الكبيرة القياسية.
تم إجراء جميع عمليات التدريب باستخدام إطار عمل NVIDIA Megatron-LLM مع مُحمّل بيانات Energon، موزعًا على مجموعات من وحدات معالجة الرسوميات A100 و H100.
نتائج الاختبار والتقييم
خضع نموذج لامّا نيموترون نانو VL للاختبار على معيار OCRBench v2، وهو معيار مصمم لتقييم فهم اللغة والرؤية على مستوى الوثيقة عبر مهام التعرف الضوئي على الحروف (OCR)، وتحليل الجداول، واستنتاج الرسوم البيانية. يتضمن OCRBench أكثر من 10,000 زوج أسئلة وأجوبة تم التحقق منها يدويًا، تغطي وثائق من مجالات مثل المالية، والرعاية الصحية، والقانون، والنشر العلمي.
أظهرت النتائج أن النموذج حقق دقة متقدمة بين نماذج VLMs المدمجة على هذا المعيار. يُلاحظ بشكل خاص أن أداءه يُنافس نماذج أكبر وأقل كفاءة، خاصة في استخراج البيانات المُنسّقة (مثل الجداول وأزواج المفتاح والقيمة) والإجابة على الاستفسارات المُعتمدة على التنسيق. كما يُظهر النموذج قدرة على التعميم عبر الوثائق غير الإنجليزية وجودة المسح الضوئي المنخفضة، مما يعكس متانته في ظل الظروف الواقعية.
النشر، والكمية، والكفاءة
صُمّم نموذج Nemotron Nano VL ليكون قابلاً للنشر بمرونة، حيث يدعم كل من عمليات الاستدلال على الخادم وحواف الشبكة. توفر NVIDIA إصدارًا مُكمّى 4 بت (AWQ) للاستدلال بكفاءة عالية باستخدام TinyChat و TensorRT-LLM، مع توافق مع Jetson Orin وغيرها من البيئات المُقيدة.
الميزات التقنية الرئيسية:
- دعم NIM (خدمة NVIDIA الدقيقة للاستدلال) النمطية، مما يُبسّط دمج واجهة برمجة التطبيقات.
- دعم تصدير ONNX و TensorRT، مما يضمن التوافق مع تسريع الأجهزة.
- خيار تضمين الرؤية المُحسّبة مسبقًا، مما يُمكّن من تقليل زمن الوصول للوثائق ذات الصور الثابتة.
الخلاصة
يمثل نموذج لامّا نيموترون نانو VL توازنًا جيدًا بين الأداء، وطول السياق، وكفاءة النشر في مجال فهم الوثائق. تُقدّم بنيته، المُرتكزة على لامّا 3.1 والمعززة بمُشفّر بصري مُدمج، حلًا عمليًا للتطبيقات المؤسسية التي تتطلب فهمًا متعدد الوسائط ضمن قيود صارمة على زمن الوصول أو الأجهزة. من خلال تصدره لمعيار OCRBench v2 مع الحفاظ على مساحة نشر صغيرة، يُضع نموذج Nemotron Nano VL نفسه كنموذج فعال للمهام مثل الأسئلة والأجوبة التلقائية للوثائق، والتعرف الضوئي الذكي على الحروف، وأنابيب استخراج المعلومات.
يمكنكم الاطلاع على التفاصيل التقنية والنموذج على Hugging Face. جميع الحقوق محفوظة للباحثين في هذا المشروع. تابعونا على تويتر، وانضموا إلى مجتمعنا المكون من أكثر من 95 ألف مشترك في SubReddit، واشتركوا في قائمتنا البريدية.
اترك تعليقاً