نموذج NuMarkdown-8B-Thinking: نقلة نوعية في التعرف الضوئي على النصوص وتحويلها إلى Markdown

أعلنت شركة NuMind AI عن إطلاق نموذجها الجديد مفتوح المصدر (مرخص برخصة MIT) NuMarkdown-8B-Thinking، وهو نموذج لغوي بصري (VLM) قائم على الاستدلال، يُعيد تعريف طريقة رقمنة وتنظيم المستندات المعقدة. على عكس أنظمة التعرف الضوئي على النصوص التقليدية، لا يقتصر NuMarkdown-8B-Thinking على استخراج النصوص فحسب، بل يفكر في تخطيط المستند، وهيكله، وتنسيقه قبل توليد ملف Markdown دقيق وجاهز للاستخدام. يُعد هذا النموذج أول نموذج لغوي بصري قائم على الاستدلال مصمم خصيصًا لتحويل ملفات PDF والمستندات الممسوحة ضوئيًا وجداول البيانات إلى ملفات Markdown منظمة وواضحة، مما يجعله مثاليًا لعمليات توليد البيانات المعززة بالاسترجاع (RAG)، وقواعد البيانات القائمة على الذكاء الاصطناعي، وأرشفة المستندات على نطاق واسع.

ما الذي يميز NuMarkdown-8B-Thinking؟

يعتمد النموذج نهجًا يضع الاستدلال في المقام الأول في التعرف الضوئي على النصوص. بدلاً من عرض النص المستخرج مباشرةً، يُنشئ NuMarkdown-8B-Thinking “رموز تفكير” – وهي خطوات استدلال داخلية تساعده على فهم تخطيطات المستندات قبل إنتاج المخرجات النهائية. تتيح هذه القدرة معالجة التنسيقات والهياكل التي تُحير معظم أنظمة التعرف الضوئي على النصوص التقليدية وحتى تلك التي تعمل بالذكاء الاصطناعي، بما في ذلك:

  • تخطيطات متعددة الأعمدة ذات ترتيب قراءة معقد.
  • الجداول ذات الخلايا المدمجة أو المتداخلة أو غير المنتظمة.
  • العناصر المرئية المختلطة (الصور، رؤوس الصفحات الزخرفية، العلامات المائية).
  • عمليات المسح الضوئي القديمة أو المتدهورة حيث يكون الاستنتاج التخطيطي أمرًا بالغ الأهمية.

يختلف عدد رموز التفكير حسب التعقيد – من 20% إلى 500% من طول Markdown النهائي – مما يُظهر مدى “تفكير” النموذج قبل “كتابته”.

التدريب والهندسة المعمارية

NuMarkdown-8B-Thinking هو إصدار مُحسّن من Qwen 2.5-VL-7B من Alibaba – أحد أقوى النماذج متعددة الوسائط مفتوحة المصدر المتاحة. تضمنت خطة تدريبه مرحلتين رئيسيتين:

  1. التحسين الدقيق المُشرف (SFT): على عينات مستندات اصطناعية حيث تضمن كل عينة:

    • إدخال مستند خام.
    • خطوات استدلال وسيطة (تحليل التخطيط، استنتاج الهيكل).
    • تمثيل Markdown النهائي.
  2. التعلم المعزز مع GRPO: باستخدام مكافأة تركز على التخطيط تشجع إعادة بناء دقيقة لتنسيق المستند والعلاقات المكانية.

منحت هذه العملية المكونة من مرحلتين NuMarkdown-8B-Thinking القدرة على الحفاظ على دقة عالية حتى في التخطيطات الصعبة التي تتطلب عادةً حكمًا بشريًا.

نتائج المقاييس: التفوق على عمالقة التعرف الضوئي على النصوص

في التقييمات المستقلة واختبارات المستخدمين، يُظهر NuMarkdown-8B-Thinking أحدث تقنيات الاستدلال لمهام تحويل التعرف الضوئي على النصوص إلى Markdown:

  • يتفوق على: النماذج العامة مثل GPT-4، ونماذج التعرف الضوئي على النصوص المتخصصة مثل OCRFlux.
  • يتنافس مع: نماذج الاستدلال الكبيرة مغلقة المصدر مثل Gemini 2.5.
  • يأتي مباشرةً بعد: نماذج النخبة مثل Gemini Flash في تصنيفات المستخدمين متعددة النماذج العمياء.

يُبرز المستخدمون بشكل خاص قدرته على:

  • استنتاج ترتيب القراءة بشكل صحيح في التخطيطات غير الخطية.
  • الحفاظ على تنسيق الجدول المعقد.
  • إخراج Markdown نظيف وسهل التحليل لاستخدامه في عمليات توليد البيانات المعززة بالاسترجاع دون أي معالجة لاحقة.

مثال عملي

تخيل صفحة تقرير سنوي ممسوحة ضوئيًا بها:

  • عناوين متعددة المستويات.
  • أشرطة جانبية وأعمدة متعددة.
  • جدول مالي بخلايا مدمجة وتباعد غير متساوٍ بين الصفوف.
  • تذييل يحتوي على إخلاءات مسؤولية قانونية.

ينتج NuMarkdown-8B-Thinking أولاً رموز تفكير تُحدد الهيكل (“العمود 1: فقرة تمهيدية… العمود 2: مواصلة الفقرة… نص التذييل في الأسفل… الجدول يمتد على عمودين…”)، ثم يُخرج Markdown يعكس بدقة كل من المحتوى والتخطيط. تجعل طبقة الاستدلال الشفافة قرارات النموذج قابلة للتدقيق – وهي ميزة رئيسية في سياقات المؤسسات والقانون والأرشيف.

خيارات النشر

سواء كنت باحثًا أو مطورًا أو مهندس ذكاء اصطناعي في مؤسسة ما، فإن NuMarkdown-8B-Thinking جاهز للاندماج في سير عملك:

  • Hugging Face: متاح للاختبار والدمج المباشر.
  • التنفيذ المحلي: يتم نشر أوزان النموذج وإصدارات GGUF المُكمّنة لسهولة النشر على وحدة المعالجة المركزية/وحدة معالجة الرسومات.
  • متوافق مع واجهة برمجة التطبيقات: متوافق مع واجهات برمجة التطبيقات على غرار OpenAI و Hugging Face Transformers للاندماج السريع في خطوط الأنابيب.

تضمن رخصة MIT حرية كاملة للمشاريع التجارية أو الأكاديمية أو الشخصية – بدون قيود من البائعين أو بوابات واجهة برمجة التطبيقات باهظة الثمن.

أهمية هذا الأمر

بالنسبة للصناعات التي تعتمد على رقمنة دقيقة للمستندات – المالية، والقانونية، والرعاية الصحية، وأرشيفات الحكومة – فإن دقة التخطيط بنفس أهمية دقة النص. تعامل معظم أنظمة التعرف الضوئي على النصوص مع التخطيط على أنه فكرة لاحقة؛ يعامل NuMarkdown-8B-Thinking التخطيط على أنه مشكلة استدلال. من خلال الجمع بين المصادر المفتوحة، واستدلال التخطيط، ومخرجات Markdown المُحسّنة لعمليات توليد البيانات المعززة بالاسترجاع، يقدم NuMarkdown-8B-Thinking بديلًا شفافًا وقابلًا للتحقق وعالي الأداء للحلول الخاصة بالذكاء الاصطناعي للمستندات.

يمكنك الاطلاع على النموذج على Hugging Face وصفحة GitHub. لا تتردد في زيارة صفحة GitHub الخاصة بنا للحصول على البرامج التعليمية، والأكواد، ودفاتر الملاحظات. كما يمكنك متابعتنا على Twitter، والانضمام إلى مجتمعنا ML SubReddit الذي يضم أكثر من 100 ألف مشترك، والاشتراك في قائمتنا البريدية.

المصدر: MarkTechPost