نماذج التعرف الضوئي على الحروف (OCR): نظرة شاملة على أحدث التقنيات

يُعرف التعرف الضوئي على الحروف (OCR) بأنه العملية التي تُحوّل الصور المحتوية على نصوص – مثل الصفحات الممسوحة ضوئياً، والإيصالات، والصور الفوتوغرافية – إلى نصوص قابلة للقراءة آلياً. وقد تطورت هذه العملية من أنظمة تعتمد على القواعد الثابتة إلى بيئة غنية من النُظم العصبية الاصطناعية ونماذج الرؤية واللغة القادرة على قراءة المستندات المعقدة، ومتعددة اللغات، والخطوط اليدوية.

كيف تعمل تقنية OCR؟

تواجه كل أنظمة OCR ثلاثة تحديات رئيسية:

  1. الكشف (Detection): العثور على أماكن النصوص في الصورة. وتتطلب هذه الخطوة التعامل مع التخطيطات المائلة، والنصوص المنحنية، والمشاهد المزدحمة.
  2. التعرف (Recognition): تحويل المناطق المكتشفة إلى أحرف أو كلمات. ويعتمد الأداء بشكل كبير على كيفية تعامل النموذج مع الصور ذات الدقة المنخفضة، وتنوع الخطوط، والضوضاء.
  3. مرحلة ما بعد المعالجة (Post-Processing): استخدام القواميس أو نماذج اللغة لتصحيح أخطاء التعرف والحفاظ على الهيكل، سواء كانت خلايا جداول، أو تخطيطات أعمدة، أو حقول نماذج. تزداد الصعوبة عند التعامل مع الخط اليدوي، والخطوط التي تتجاوز الأبجدية اللاتينية، أو المستندات ذات الهيكل العالي مثل الفواتير والأوراق العلمية.

من خطوط الأنابيب المصممة يدوياً إلى الهندسة المعمارية الحديثة

  • OCR المبكر: اعتمد على تحويل الصور إلى صور ثنائية، والتقسيم، ومطابقة القوالب. كان فعالاً فقط مع النصوص المطبوعة النظيفة.
  • التعلم العميق: أزالت النماذج القائمة على CNN و RNN الحاجة إلى هندسة الميزات يدوياً، مما أتاح التعرف من النهاية إلى النهاية.
  • المحولات (Transformers): وسعت أنظمة مثل TrOCR من مايكروسوفت تقنية OCR لتشمل التعرف على الخط اليدوي والإعدادات متعددة اللغات مع تحسين التعميم.
  • نماذج رؤية اللغة (VLMs): تُدمج نماذج متعددة الوسائط الكبيرة مثل Qwen2.5-VL و Llama 3.2 Vision تقنية OCR مع الاستدلال السياقي، مع التعامل ليس فقط مع النصوص ولكن أيضاً مع المخططات، والجدول، والمحتويات المختلطة.

مقارنة أفضل نماذج OCR مفتوحة المصدر

النموذج الهندسة المعمارية نقاط القوة أفضل استخدام
Tesseract قائمة على LSTM ناضجة، تدعم أكثر من 100 لغة، مستخدمة على نطاق واسع التحويل الرقمي الضخم للنصوص المطبوعة
EasyOCR PyTorch CNN + RNN سهلة الاستخدام، تعمل على وحدات معالجة الرسومات، أكثر من 80 لغة النماذج الأولية السريعة، المهام الخفيفة
PaddleOCR CNN + أنابيب محولات دعم قوي للصينية/الإنجليزية، استخراج الجداول والصيغ مستندات متعددة اللغات منظمة
docTR نموذج وحدات (DBNet، CRNN، ViTSTR) مرن، يدعم كل من PyTorch و TensorFlow البحث وخطوط الأنابيب المخصصة
TrOCR قائمة على المحولات ممتازة في التعرف على الخط اليدوي، تعميم قوي المدخلات المكتوبة بخط اليد أو الخطوط المختلطة
Qwen2.5-VL نموذج رؤية اللغة مدرك للسياق، يتعامل مع المخططات والتخطيطات مستندات معقدة مع وسائط مختلطة
Llama 3.2 Vision نموذج رؤية اللغة OCR مدمج مع مهام الاستدلال الأسئلة والأجوبة على المستندات الممسوحة ضوئياً، المهام متعددة الوسائط

الاتجاهات الناشئة

يتجه البحث في مجال OCR إلى ثلاثة اتجاهات ملحوظة:

  • النماذج الموحدة: تدمج أنظمة مثل VISTA-OCR الكشف، والتعرف، والتوطين المكاني في إطار توليدي واحد، مما يقلل من انتشار الأخطاء.
  • اللغات ذات الموارد المحدودة: تُبرز معايير الأداء مثل PsOCR الفجوات في الأداء في لغات مثل البشتو، مما يشير إلى الحاجة إلى ضبط دقيق متعدد اللغات.
  • تحسينات الكفاءة: تقلل نماذج مثل TextHawk2 عدد رموز الصورة في المحولات، مما يقلل من تكاليف الاستدلال دون فقدان الدقة.

الخلاصة

يوفر النظام البيئي لـ OCR مفتوح المصدر خيارات توازن بين الدقة، والسرعة، وكفاءة الموارد. يظل Tesseract موثوقاً للنصوص المطبوعة، ويتميز PaddleOCR بالمستندات المنظمة والمتعددة اللغات، بينما يدفع TrOCR حدود التعرف على الخط اليدوي. بالنسبة لحالات الاستخدام التي تتطلب فهمًا للمستندات يتجاوز النصوص الخام، فإن نماذج رؤية اللغة مثل Qwen2.5-VL و Llama 3.2 Vision واعدة، على الرغم من ارتفاع تكلفة نشرها. يعتمد الاختيار الصحيح أقل على دقة لوحة المتصدرين وأكثر على حقائق النشر: أنواع المستندات، والخطوط، وتعقيد الهيكل الذي تحتاج إلى التعامل معه، وميزانية الحوسبة المتاحة. يبقى اختبار النماذج المرشحة على بياناتك الخاصة هو الطريقة الأكثر موثوقية لاتخاذ القرار.

المصدر: MarkTechPost