نموذج جرانيت-دوكلينج-258م: ثورة في معالجة الوثائق الذكية مفتوحة المصدر

أعلنت شركة IBM مؤخراً عن إطلاق نموذج جرانيت-دوكلينج-258م (Granite-Docling-258M)، وهو نموذج لغوي بصري مفتوح المصدر (مرخص برخصة Apache-2.0) مصمم خصيصاً لتحويل الوثائق من طرف إلى طرف بكفاءة عالية. يهدف هذا النموذج إلى استخراج المعلومات من الوثائق بشكل دقيق، مع الحفاظ على التنسيق الأصلي، بما في ذلك الجداول، والرموز البرمجية، والمعادلات، والقوائم، والتسميات التوضيحية، بالإضافة إلى ترتيب القراءة. ويقدم النموذج تمثيلًا منظمًا قابلاً للقراءة آلياً، بدلاً من تمثيل Markdown المُبسّط الذي قد يفقد بعض المعلومات. ويتوفر النموذج على منصة Hugging Face مع عرض توضيحي مباشر وإصدار مُحسّن لمعالجات Apple Silicon.

التحسينات مقارنةً بـ SmolDocling

يُعد نموذج جرانيت-دوكلينج خليفةً مُحسّنًا لنموذج SmolDocling-256M، حيث قامت IBM باستبدال العمود الفقري السابق بنموذج لغوي جرانيت 165م، وقامت بترقية مُشفّر الرؤية إلى SigLIP2 (قاعدة، patch16-512) مع الاحتفاظ بموصل Idefics3-style (مشروع pixel-shuffle). نتيجة لذلك، أصبح النموذج الجديد يحتوي على 258 مليون معامل، ويُظهر تحسينات ملحوظة في الدقة عبر تحليل التنسيق، وOCR الصفحات الكاملة، والرموز البرمجية، والمعادلات، والجداول (انظر المقاييس أدناه). كما عالجت IBM حالات الفشل غير المستقرة التي لوحظت في النموذج التجريبي (مثل حلقات الرموز المتكررة).

العمارة وأنابيب التدريب

  • العمود الفقري: كومة مُشتقة من Idefics3 مع مُشفّر رؤية SigLIP2 → موصل pixel-shuffle → نموذج لغوي كبير جرانيت 165م.
  • إطار العمل التدريبي: nanoVLM (مجموعة أدوات تدريب VLM خفيفة الوزن، تعتمد على PyTorch).
  • التَمثيل: يُصدر DocTags، وهو ترميز مُنشأ بواسطة IBM مصمم لهيكل وثيقة لا لبس فيه (عناصر + إحداثيات + علاقات)، والتي تُحوّل الأدوات التابعة إلى Markdown/HTML/JSON.
  • الحوسبة: تم تدريبه على مجموعة IBM Blue Vela H100.

التحسينات الكمية (جرانيت-دوكلينج-258م مقابل SmolDocling-256M)

تم التقييم باستخدام docling-eval، وLMMS-Eval، ومجموعات بيانات خاصة بالمهام:

  • التنسيق: MAP 0.27 مقابل 0.23؛ F1 0.86 مقابل 0.85.
  • OCR الصفحات الكاملة: F1 0.84 مقابل 0.80؛ مسافة تحرير أقل.
  • تعرف على الرموز البرمجية: F1 0.988 مقابل 0.915؛ مسافة تحرير 0.013 مقابل 0.114.
  • تعرف على المعادلات: F1 0.968 مقابل 0.947.
  • تعرف على الجداول (FinTabNet @150dpi): TEDS-structure 0.97 مقابل 0.82؛ TEDS مع محتوى 0.96 مقابل 0.76.
  • معايير أخرى: MMStar 0.30 مقابل 0.17؛ OCRBench 500 مقابل 338.
  • الاستقرار: “يتجنب الحلقات اللانهائية بشكل أكثر فعالية” (إصلاح موجه للإنتاج).

دعم متعدد اللغات

يضيف جرانيت-دوكلينج دعمًا تجريبيًا للغات اليابانية والعربية والصينية. وتُشير IBM إلى أن هذا الدعم لا يزال في مراحله الأولية، وتبقى اللغة الإنجليزية هي الهدف الرئيسي.

كيف يُغيّر مسار DocTags معالجة الوثائق الذكية؟

تُفقد أنابيب OCR التقليدية إلى Markdown المعلومات الهيكلية وتُعقّد إنشاء الأجيال المُعززة بالاسترجاع (RAG). يُصدر جرانيت-دوكلينج DocTags – وهي قواعد نحوية هيكلية مُدمجة وملائمة للنماذج اللغوية الكبيرة – والتي يحوّلها Docling إلى Markdown/HTML/JSON. هذا يحافظ على بنية الجداول، والرياضيات المضمنة/العائمة، وكتل الرموز، والتسميات التوضيحية، وترتيب القراءة مع الإحداثيات الصريحة، مما يُحسّن جودة الفهرسة والتأسيس لـ RAG والتحليلات.

الاستدلال والتكامل

التكامل مع Docling (مُوصى به): يقوم واجهة سطر الأوامر/مجموعة أدوات تطوير البرامج Docling تلقائيًا بسحب جرانيت-دوكلينج وتحويل ملفات PDF/مستندات Office/الصور إلى تنسيقات متعددة. تضع IBM النموذج كمكوّن داخل أنابيب Docling بدلاً من نموذج VLM عام.

  • أوقات التشغيل: يعمل مع Transformers، وvLLM، وONNX، وMLX؛ تم تحسين إصدار MLX المخصص لمعالجات Apple Silicon.
  • عرض توضيحي تفاعلي: يُوفر Hugging Face Space عرضًا توضيحيًا تفاعليًا (ZeroGPU).
  • الرخصة: Apache-2.0.

لماذا جرانيت-دوكلينج؟

بالنسبة لمعالجة الوثائق الذكية في المؤسسات، فإن نماذج VLMs الصغيرة التي تحافظ على الهيكل تقلل من تكلفة الاستدلال وتعقيد الأنابيب. يُستبدل جرانيت-دوكلينج نماذج متعددة ذات أغراض خاصة (التنسيق، OCR، الجداول، الرموز، المعادلات) بمكوّن واحد يُصدر تمثيلًا وسيطًا أكثر ثراءً، مما يُحسّن الاسترجاع اللاحق ودقة التحويل. تُعد المكاسب المُقاسة – في TEDS للجداول، وF1 للرموز/المعادلات، وانخفاض عدم الاستقرار – ترقية عملية من SmolDocling لسير العمل في الإنتاج.

ملخص العرض التوضيحي

يُمثل نموذج جرانيت-دوكلينج-258م تقدمًا كبيرًا في معالجة الوثائق الذكية المُدمجة والحافظة للهيكل. من خلال دمج عمود جرانيت من IBM، ومُشفّر رؤية SigLIP2، وإطار عمل nanoVLM التدريبي، فإنه يُوفر أداءً جاهزًا للمؤسسات عبر الجداول، والمعادلات، والرموز، والنصوص متعددة اللغات – مع الحفاظ على خفة الوزن وكونه مفتوح المصدر بموجب رخصة Apache 2.0. مع المكاسب المُقاسة على سابقه SmolDocling والتكامل السلس مع أنابيب Docling، يوفر جرانيت-دوكلينج أساسًا عمليًا لتحويل الوثائق وسير عمل RAG حيث تكون الدقة والموثوقية أمرًا بالغ الأهمية.

يمكنكم زيارة [رابط Hugging Face](رابط افتراضي) للاطلاع على النماذج والعرض التوضيحي. كما يمكنكم زيارة [رابط GitHub](رابط افتراضي) للحصول على الدروس والرموز البرمجية ودفاتر الملاحظات. تابعونا أيضًا على [رابط تويتر](رابط افتراضي) وانضموا إلى مجتمعنا على [رابط Reddit](رابط افتراضي) واشتركوا في قائمتنا البريدية [رابط البريد الإلكتروني](رابط افتراضي).

المصدر: MarkTechPost