نموذج FG2: دقة غير مسبوقة في تحديد المواقع للسيارات ذاتية القيادة في البيئات المحرومة من نظام تحديد المواقع العالمي (GPS)

يُعاني نظام تحديد المواقع العالمي (GPS) من صعوبات كبيرة في تحديد المواقع بدقة عالية في المناطق الحضرية المكتظة، حيث تعيق ناطحات السحاب إشارات الأقمار الصناعية وتُسبب انعكاساتها أخطاءً في تحديد الموقع قد تصل إلى عشرات الأمتار. قد لا يُشكل هذا الأمر مشكلة كبيرة بالنسبة للإنسان، لكنه يُمثل تحديًا خطيرًا للسيارات ذاتية القيادة والروبوتات، حيث تتطلب هذه الأجهزة دقة متناهية لضمان سلامتها وكفاءتها. وقد قدم باحثون من المدرسة المتعددة التقنيات في لوزان (EPFL) في سويسرا، حلًا مبتكرًا لهذه المشكلة من خلال تطوير نموذج جديد للذكاء الاصطناعي يُسمى FG2.

FG2: ميزات رئيسية ونتائج مبهرة

يُقدم نموذج FG2، الذي تم تقديمه في مؤتمر رؤية الكمبيوتر (CVPR 2025)، تحسينًا كبيرًا في قدرة الأنظمة الأرضية، مثل السيارات ذاتية القيادة، على تحديد موقعها واتجاهها بدقة باستخدام كاميرا فقط وصورة جوية (أو صورة قمر صناعي) مُقابلة. وقد حقق هذا النموذج نتائج مُذهلة، حيث قلل من متوسط خطأ تحديد الموقع بنسبة 28% مقارنةً بأفضل النماذج السابقة، وذلك على مجموعة بيانات عامة تُعتبر صعبة للغاية.

المزايا الرئيسية لنموذج FG2:

  • دقة متفوقة: يُقلل نموذج FG2 من متوسط خطأ تحديد الموقع بنسبة 28% على مجموعة اختبار VIGOR، وهي مجموعة بيانات مرجعية صعبة لهذه المهمة.
  • فهم يُشبه الفهم البشري: بدلاً من الاعتماد على الوصفيات المجردة، يُحاكي النموذج التفكير البشري من خلال مطابقة ميزات دقيقة ذات دلالة معنوية، مثل حواف الرصيف، ومعابر المشاة، والمباني، بين صورة أرضية وخريطة جوية.
  • شفافية عالية: يسمح الأسلوب للباحثين “برؤية” ما “يفكر” فيه الذكاء الاصطناعي من خلال تصور الميزات المُطابقة بدقة في الصور الأرضية والجوية، وهي خطوة كبيرة إلى الأمام مقارنة بالنماذج السابقة “الصندوق الأسود”.
  • التعلم المُشرف ضعيفًا: يُلاحظ أن النموذج يتعلم هذه المطابقات المعقدة والمتسقة للميزات دون أي تسميات مباشرة للمُطابقات. يُحقق ذلك باستخدام وضع الكاميرا النهائي فقط كإشارة إشرافية.

التحدي: رؤية العالم من زاويتين مختلفتين

تكمن المشكلة الأساسية في تحديد المواقع عبر المشاهد المختلفة في الاختلاف الكبير في المنظور بين كاميرا مستوى الشارع والصورة الجوية من القمر الصناعي. فواجهة المبنى التي تُرى من الأرض تبدو مختلفة تمامًا عن مظهرها من الأعلى في الصورة الجوية. وقد عانت الأساليب الحالية من هذه المشكلة. فبعضها يُنشئ “وصفًا” عامًا للمشهد بأكمله، لكن هذا نهج مجرد لا يُحاكي الطريقة التي يُحدد بها البشر مواقعهم بشكل طبيعي من خلال رصد معالم محددة. كما أن بعض الأساليب الأخرى تُحوّل الصورة الأرضية إلى منظر عين الطائر (BEV)، لكنها غالبًا ما تقتصر على مستوى الأرض، متجاهلة الهياكل الرأسية المهمة مثل المباني.

FG2: مطابقة الميزات الدقيقة

يُقدم نموذج FG2 من فريق EPFL عملية أكثر سهولة وفعالية. فهو يُطابق مجموعتين من النقاط: مجموعة مُولدة من الصورة الأرضية، وأخرى مُستقاة من الخريطة الجوية. وفيما يلي شرح لخطوات هذه العملية المبتكرة:

  1. التحويل إلى نموذج ثلاثي الأبعاد (3D): تبدأ العملية بأخذ ميزات من الصورة الأرضية ورفعها إلى سحابة نقاط ثلاثية الأبعاد مُركز حول الكاميرا. وهذا يُنشئ تمثيلًا ثلاثي الأبعاد للبيئة المحيطة المباشرة.
  2. التجميع الذكي إلى منظر عين الطائر (BEV): هنا تكمن الابتكار الرئيسي. بدلاً من مجرد تسطيح البيانات ثلاثية الأبعاد، يتعلم النموذج اختيار الميزات الأكثر أهمية على طول البعد الرأسي (الارتفاع) لكل نقطة. فهو يُطرح السؤال: “في هذا المكان على الخريطة، هل علامة الطريق الأرضية أكثر أهمية، أم أن حافة سقف هذا المبنى هي المعلم الأفضل؟” هذه عملية الاختيار حاسمة، حيث تسمح للنموذج بربط الميزات بشكل صحيح، مثل واجهات المباني، مع أسطحها المُقابلة في الصورة الجوية.
  3. مطابقة الميزات وتقدير الوضع: بمجرد تمثيل كل من المنظر الأرضي والجوي على شكل مستويات نقطية ثنائية الأبعاد مع وصفات ميزات غنية، يُحسب النموذج التشابه بينهما. ثم يقوم باختيار مجموعة مُتفرقة من أكثر المطابقات ثقة ويستخدم خوارزمية هندسية كلاسيكية تسمى محاذاة بروكروستس لحساب الوضع الدقيق ثلاثي الأبعاد (x، y، و yaw).

أداء غير مسبوق وشفافية عالية

تُبرز النتائج نجاح هذا النهج. ففي مجموعة بيانات VIGOR الصعبة، التي تتضمن صورًا من مدن مختلفة في اختبارها عبر المناطق، قلل FG2 من متوسط خطأ تحديد الموقع بنسبة 28% مقارنة بأفضل طريقة سابقة. كما أظهر قدرات تعميم أفضل على مجموعة بيانات KITTI، وهي مجموعة بيانات أساسية في أبحاث القيادة الذاتية.

ولعل الأهم من ذلك، أن نموذج FG2 يوفر مستوى جديدًا من الشفافية. من خلال تصور النقاط المُطابقة، أظهر الباحثون أن النموذج يتعلم المُطابقات ذات الدلالة المعنوية دون أن يُطلب منه ذلك صراحةً. فعلى سبيل المثال، يُطابق النظام بشكل صحيح معابر المشاة، وعلامات الطريق، وحتى واجهات المباني في المنظر الأرضي مع مواقعها المُقابلة على الخريطة الجوية. هذه الشفافية قيّمة للغاية لبناء الثقة في الأنظمة الذاتية الحساسة للسلامة.

“مسار أوضح” للملاحة الذاتية

يُمثل نموذج FG2 قفزة كبيرة إلى الأمام في تحديد المواقع البصرية الدقيقة. من خلال تطوير نموذج يختار ويُطابق الميزات بطريقة تُحاكي الحدس البشري، لم يُحطم باحثو EPFL سجلات الدقة السابقة فحسب، بل جعلوا عملية صنع القرار للذكاء الاصطناعي أكثر قابلية للتفسير. وهذا العمل يُمهد الطريق لأنظمة ملاحة أكثر قوة وموثوقية للسيارات ذاتية القيادة والطائرات بدون طيار والروبوتات، مما يُقربنا خطوة واحدة من مستقبل حيث تستطيع الآلات التنقل بثقة في عالمنا، حتى عندما يفشل نظام GPS.

المصدر: MarkTechPost