البيانات الاصطناعية: ثورة في الذكاء الاصطناعي، فرص وتحديات

مقدمة

تُعرّف البيانات الاصطناعية بأنها بيانات مُولّدة خوارزمياً لتحاكي الخصائص الإحصائية للبيانات الحقيقية، دون احتواء أي معلومات من مصادر العالم الحقيقي. تشير بعض التقديرات إلى أن أكثر من 60% من البيانات المستخدمة في تطبيقات الذكاء الاصطناعي في عام 2024 كانت بيانات اصطناعية، ومن المتوقع أن يزداد هذا الرقم عبر مختلف القطاعات. تُقدم البيانات الاصطناعية وعداً بحماية الخصوصية، وخفض التكاليف، وزيادة سرعة تطوير نماذج الذكاء الاصطناعي الجديدة. ومع ذلك، يتطلب استخدامها تقييماً دقيقاً، وتخطيطاً مدروساً، وآليات رقابة للتأكد من عدم حدوث فقدان في الأداء عند نشر نماذج الذكاء الاصطناعي.

توليد البيانات الاصطناعية

تُولّد البيانات الاصطناعية خوارزمياً دون الاعتماد على بيانات من واقع الحياة. تكمن قيمتها في تشابهها الإحصائي مع البيانات الحقيقية. على سبيل المثال، في معالجة اللغات الطبيعية، تبدو البيانات الاصطناعية وكأنها كتبت بواسطة إنسان. يشهد العقد الأخير تطوراً هائلاً في قدرتنا على بناء نماذج توليدية من البيانات واستخدامها لإنشاء بيانات اصطناعية واقعية. يمكننا استخدام كمية صغيرة من البيانات الحقيقية لبناء نموذج توليدي، ثم استخدامه لإنشاء كمية كبيرة من البيانات الاصطناعية. كما أن النموذج يُولّد البيانات الاصطناعية بطريقة تحافظ على القواعد الكامنة وأنماط البيانات الحقيقية.

هناك أربعة أنواع رئيسية للبيانات:

  • البيانات اللغوية: مثل النصوص.
  • البيانات المرئية: مثل الصور والفيديوهات.
  • البيانات الصوتية: مثل التسجيلات الصوتية.
  • البيانات الجدولية: البيانات المنظمة في جداول.

تختلف طرق بناء النماذج التوليدية لكل نوع من هذه البيانات. فعلى سبيل المثال، تعتبر نماذج اللغات الكبيرة (LLMs) نماذج توليدية يتم أخذ عينات من البيانات الاصطناعية منها عند طرح الأسئلة عليها.

تتوفر الكثير من البيانات اللغوية والمرئية على الإنترنت، ولكن البيانات الجدولية، التي تُجمع عند التفاعل مع الأنظمة الفيزيائية والاجتماعية، غالباً ما تكون محجوبة خلف جدران الحماية المؤسسية، وكثيراً ما تكون حساسة أو خاصة، مثل معاملات العملاء المخزنة لدى البنوك. لذلك، توفر منصات مثل Synthetic Data Vault برامج لبناء نماذج توليدية تُنشئ بيانات اصطناعية تحافظ على خصوصية المستخدمين ويمكن مشاركتها على نطاق أوسع. تُتيح تقنية النمذجة التوليدية للمؤسسات بناء نماذج مخصصة لبياناتها الخاصة، مما يُؤتمت عملية كانت تُنفذ يدوياً سابقاً.

فوائد استخدام البيانات الاصطناعية وتطبيقاتها

من أهم تطبيقات البيانات الاصطناعية اختبار التطبيقات البرمجية. تعتمد العديد من التطبيقات البرمجية على البيانات، لذلك نحتاج إلى بيانات لاختبار هذه التطبيقات ووظائفها. بدلاً من توليد البيانات يدوياً، يمكننا الآن استخدام النماذج التوليدية لإنشاء كمية البيانات اللازمة. يمكن أيضاً إنشاء بيانات خاصة لاختبارات محددة. على سبيل المثال، يمكن لشركة تجارة إلكترونية توليد بيانات اصطناعية تحاكي عملاء حقيقيين يعيشون في منطقة معينة وأجروا معاملات متعلقة بمنتج معين خلال فترة زمنية محددة.

بما أن البيانات الاصطناعية لا تستمد من مواقف حقيقية، فهي تحافظ على الخصوصية. تُعدّ مشكلة الوصول إلى البيانات الحساسة لاختبار البرامج في بيئات غير إنتاجية من أكبر التحديات بسبب مخاوف الخصوصية. كما تُستخدم البيانات الاصطناعية في اختبار الأداء، حيث يمكن إنشاء مليارات المعاملات من نموذج توليدي لاختبار سرعة معالجة النظام.

تُعدّ البيانات الاصطناعية مفيدة جداً في تدريب نماذج تعلم الآلة، خاصةً عند الرغبة في التنبؤ بأحداث نادرة الحدوث. على سبيل المثال، قد ترغب البنوك في استخدام نموذج للتنبؤ بالمعاملات الاحتيالية، ولكن قد لا تتوفر بيانات كافية لتدريب نموذج دقيق. تُعزز البيانات الاصطناعية البيانات المتوفرة، مما يُحسّن دقة نماذج الذكاء الاصطناعي. كما تُستخدم عندما لا يتوفر الوقت أو الموارد المالية لجمع البيانات الكافية.

مخاطر ومشاكل استخدام البيانات الاصطناعية

من أهم التساؤلات حول البيانات الاصطناعية مدى الثقة بها. تعتمد الثقة في البيانات على تقييم النظام الكامل الذي تُستخدم فيه. هناك أساليب لقياس مدى قرب البيانات الاصطناعية من البيانات الحقيقية، وقياس جودتها، والتأكد من أنها تحافظ على الخصوصية. لكن هناك اعتبارات أخرى عند استخدامها لتدريب نماذج تعلم الآلة، مثل التأكد من أن هذه البيانات ستؤدي إلى استنتاجات صحيحة.

تظهر مقاييس جديدة للفعالية، مع التركيز على فعالية البيانات لمهمة محددة. يجب التحقق من أن البيانات الاصطناعية المُضافة لا تزال تسمح باستخلاص استنتاجات صحيحة. يجب القيام بذلك بعناية لكل تطبيق على حدة.

يُمكن أن يكون التحيز مشكلة أيضاً، حيث يُمكن أن ينتقل التحيز الموجود في البيانات الحقيقية إلى البيانات الاصطناعية. يجب إزالة التحيز من خلال تقنيات أخذ عينات مختلفة لإنشاء مجموعات بيانات متوازنة. يتطلب ذلك تخطيطاً دقيقاً، ولكن يمكن معايرة توليد البيانات لمنع انتشار التحيز.

للمساعدة في عملية التقييم، تم إنشاء مكتبة مقاييس البيانات الاصطناعية (Synthetic Data Metrics Library) للتأكد من وجود آليات رقابة. يضيف استخدام البيانات الاصطناعية بعداً جديداً لتحديات تعميم نماذج تعلم الآلة على مواقف جديدة.

من المتوقع أن تتغير الطرق التقليدية للعمل مع البيانات بشكل كبير مع تطور تقنيات النمذجة التوليدية. ستصبح العديد من الأشياء التي لم تكن ممكنة سابقاً ممكنة الآن.

المصدر: MIT News