GPZ: ثورة في ضغط بيانات الجسيمات الضخمة باستخدام معالجات الرسوميات

تُعاني عمليات المحاكاة القائمة على الجسيمات وتطبيقات سُحُب النقاط من التوسع الهائل في حجم وتعقيد مجموعات البيانات العلمية والتجارية، والتي غالباً ما تتجاوز مليارات أو تريليونات النقاط المنفصلة. يُشكل تخفيض هذه البيانات بكفاءة وتخزينها وتحليلها دون إعاقة معالجات الرسوميات الحديثة أحد التحديات الكبرى في مجالات مثل علم الكونيات، وعلم الجيولوجيا، وديناميات الجزيئات، والتصوير ثلاثي الأبعاد. وقد قدّم فريق من الباحثين من جامعة ولاية فلوريدا، وجامعة آيوا، ومختبر أرجون الوطني، وجامعة شيكاغو، وعدة مؤسسات أخرى، مؤخراً، تقنية GPZ، وهي تقنية ضغط ضياع بيانات مُحسّنة لمعالجات الرسوميات، مُحددة للخطأ، تُحسّن بشكل جذري الإنتاجية ونسبة الضغط ودقة البيانات – متفوقة على خمسة بدائل حديثة بأكثر من هامش كبير.

لماذا ضغط بيانات الجسيمات؟ ولماذا هو صعب للغاية؟

تُمثّل بيانات الجسيمات (أو سُحُب النقاط) – على عكس الشبكات المُهيكلة – الأنظمة كمجموعات غير منتظمة من العناصر المنفصلة في فضاء متعدد الأبعاد. يُعد هذا التنسيق ضروريًا لالتقاط الظواهر الفيزيائية المعقدة، ولكنه يتميز بانخفاض التماسك المكاني والزماني وعدم وجود تكرار تقريباً، مما يجعله كابوساً لضاغطات الضياع الخالية من الخسائر أو ضواغط الضياع العامة. فكّر في الأمر: أنتج حاسوب Summit العملاق لقطة واحدة لمحاكاة كونية بحجم 70 تيرابايت باستخدام معالجات Nvidia V100. تتجاوز سُحُب نقاط برنامج USGS لارتفاعات الأرض ثلاثية الأبعاد في الولايات المتحدة 200 تيرابايت من التخزين. تقوم الأساليب التقليدية – مثل تقليل العينة أو المعالجة أثناء التنفيذ – بالتخلص من ما يصل إلى 90% من البيانات الخام أو تُعيق إمكانية التكرار بسبب نقص التخزين. علاوة على ذلك، تستغل ضواغط الشبكات العامة الارتباطات التي لا توجد ببساطة في بيانات الجسيمات، مما يؤدي إلى نسب ضعيفة وإنتاجية ضعيفة لمعالجات الرسوميات.

GPZ: الهندسة المعمارية والابتكارات

تأتي GPZ مزودة بخط أنابيب مُوازٍ من أربع مراحل مُصمم خصيصاً لخصائص بيانات الجسيمات والمتطلبات الصارمة للأجهزة المتوازية الضخمة الحديثة.

مراحل خط الأنابيب:

  1. الكمية المكانية: يتم تعيين مواضع الجسيمات ذات النقاط العائمة إلى معرفات مقاطع صحيحة وإزاحات، مع مراعاة حدود الخطأ التي يحددها المستخدم مع الاستفادة من عمليات FP32 السريعة لتحقيق أقصى قدر من إنتاجية الحسابات في معالجات الرسوميات. يتم ضبط أحجام المقاطع لتحقيق أفضل استخدام لمعالجات الرسوميات.
  2. الفرز المكاني: يتم فرز الجسيمات داخل كل كتلة (مُعيّنة إلى مجموعة عمل CUDA) حسب معرف المقطع الخاص بها لتعزيز الترميز الخالي من الخسائر اللاحقة – باستخدام عمليات على مستوى مجموعة العمل لتجنب المزامنة المكلفة. يُوازن الفرز على مستوى الكتلة بين نسبة الضغط وبصمة الذاكرة المُشتركة لأفضل توازي.
  3. الترميز الخالي من الخسائر: يقوم الترميز المتسلسل والترميز التفاضلي الموازي المبتكر بإزالة التكرار من معرفات المقاطع المُرتبة والإزاحات المُكمّمة. يُزيل ترميز مستوى البيت البتات الصفريّة، مع تحسين جميع الخطوات بشكل كبير لأنماط الوصول إلى ذاكرة معالجات الرسوميات.
  4. التجميع: يتم تجميع الكتل المُضغوطة بكفاءة في مُخرجات متصلة باستخدام استراتيجية على مستوى الجهاز من ثلاث خطوات تُقلل من تكاليف المزامنة وتزيد من إنتاجية الذاكرة (809 غيغابايت/ثانية على RTX 4090، بالقرب من الحد الأقصى النظري). عملية فك الضغط هي العكس – استخراج، فك تشفير، وإعادة بناء المواضع ضمن حدود الخطأ، مما يُمكّن التحليل اللاحق عالي الدقة.

تحسينات الأداء المُدركة للأجهزة

تميزت GPZ بمجموعة من التحسينات المُركزة على الأجهزة:

  • دمج الذاكرة: يتم محاذاة القراءات والكتابات بعناية على حدود 4 بايت لزيادة عرض نطاق DRAM (ما يصل إلى 1.6 ضعف التحسين مقارنة بالوصول المُتباعد).
  • إدارة السجلات والذاكرة المُشتركة: تم تصميم الخوارزميات للحفاظ على نسبة الإشغال عالية. يتم إسقاط الدقة إلى FP32 حيثما أمكن، ويتم تجنب استخدام السجلات المفرط لمنع عمليات الإخراج.
  • جدولة الحساب: تعيين مجموعة عمل واحدة لكل كتلة، والاستخدام الصريح لخصائص CUDA مثل عمليات FMA، وفك التفاف الحلقة حيثما يكون ذلك مفيداً.
  • إزالة عمليات القسمة/الباقي: استبدال عمليات القسمة/الباقي البطيئة بمعاكسات مُحسوبة مسبقاً وأقنعة بتية حيثما أمكن.

المقارنة المعيارية: GPZ مقابل أحدث التقنيات

تم تقييم GPZ على ست مجموعات بيانات حقيقية (من علم الكونيات، وعلم الجيولوجيا، وفيزياء البلازما، وديناميات الجزيئات)، عبر ثلاث بنيات معمارية لمعالجات الرسوميات:

  • المستهلك: RTX 4090
  • مركز البيانات: H100 SXM
  • الحافة: Nvidia L4

وتضمنت المقاييس الأساسية: cuSZp2، PFPL، FZ-GPU، cuSZ، cuSZ-i.

فشلت معظم هذه الأدوات، المُحسّنة للشبكات العلمية العامة، أو أظهرت انخفاضات شديدة في الأداء/الجودة على مجموعات بيانات الجسيمات التي تتجاوز 2 غيغابايت؛ ظلت GPZ قوية طوال الوقت.

النتائج:

  • السرعة: قدّمت GPZ إنتاجية ضغط أعلى بمقدار 8 أضعاف من أقرب منافس لها. بلغ متوسط الإنتاجية 169 غيغابايت/ثانية (L4)، و 598 غيغابايت/ثانية (RTX 4090)، و 616 غيغابايت/ثانية (H100). يُعدّ فك الضغط أعلى من ذلك بكثير.
  • نسبة الضغط: تفوقت GPZ باستمرار على جميع المقاييس الأساسية، مُحققة نسباً أعلى بمقدار 600% في الإعدادات الصعبة. حتى عندما تقدّم المنافسون قليلاً، حافظت GPZ على ميزة سرعة تتراوح بين 3 و 6 أضعاف.
  • جودة البيانات: أكدت مخططات معدل التشويه الحفاظ على الميزات العلمية بشكل أفضل (PSNR أعلى بمعدلات بت أقل)، وكشف الفحص البصري (خاصة في المشاهد المُكبّرة 10 أضعاف) أن عمليات إعادة بناء GPZ كانت غير قابلة للتمييز تقريباً عن النسخ الأصلية، بينما أنتجت عمليات الضغط الأخرى آثاراً مرئية.

النقاط الرئيسية والتأثيرات

تُحدد GPZ معياراً جديداً للحد من بيانات الجسيمات الضخمة في الوقت الفعلي على معالجات الرسوميات الحديثة. يُقر تصميمها بالقيود الأساسية لضاغطات الضياع العامة ويُقدّم حلولاً مُخصصة تستغل كل جزء من التوازي في معالجات الرسوميات والضبط الدقيق. للباحثين والممارسين الذين يعملون مع مجموعات البيانات العلمية الضخمة، تُقدّم GPZ:

  • ضغط قوي مُحدد للخطأ مُناسب للتحليل أثناء التنفيذ والتحليل اللاحق.
  • إنتاجية ونسب عملية عبر أجهزة المستهلك وأجهزة الحوسبة عالية الأداء.
  • إعادة بناء شبه مثالية للتحليلات، والتصور، ومهام النمذجة اللاحقة.

مع استمرار تزايد أحجام البيانات، ستُحدد الحلول مثل GPZ بشكل متزايد العصر القادم من الحوسبة العلمية المُوجهة لمعالجات الرسوميات وإدارة البيانات الضخمة.

المصدر: MarkTechPost