الفصل الأول: مقدمة في الشبكات العصبية الاصطناعية
1.1. تعريف الشبكة العصبية الاصطناعية
الشبكة العصبية الاصطناعية (Artificial Neural Network – ANN)، والتي يُشار إليها أحيانًا بالشبكة العصبية أو الشبكة العصبية الاصطناعية (Neural Net – NN)، هي نموذج حسابي مستوحى من بنية ووظيفة الشبكات العصبية البيولوجية الموجودة في أدمغة الحيوانات. تُعد هذه الشبكات جزءًا لا يتجزأ من مجال التعلم الآلي (Machine Learning)، حيث تُستخدم لنمذجة العلاقات المعقدة في البيانات وتنفيذ مجموعة متنوعة من المهام. تتكون الشبكة العصبية من وحدات مترابطة، تُعرف باسم العصبونات الاصطناعية أو العُقد، والتي تحاكي بشكل مبسط العصبونات البيولوجية في الدماغ.
1.2. التشابه مع الشبكات العصبية البيولوجية
الدافع الأساسي وراء تطوير الشبكات العصبية الاصطناعية هو محاكاة طريقة عمل الدماغ البشري في معالجة المعلومات. على الرغم من أن الشبكات العصبية الاصطناعية هي نماذج رياضية مبسطة، فإنها تستوحي بنيتها الأساسية من الشبكات العصبية البيولوجية. فالعصبونات الاصطناعية تشبه العصبونات البيولوجية في كونها تتلقى إشارات، وتعالجها، ثم ترسل إشارات أخرى إلى عصبونات أخرى متصلة بها.
1.3. مكونات الشبكة العصبية الاصطناعية
تتكون الشبكة العصبية الاصطناعية من ثلاثة مكونات رئيسية:
العصبونات الاصطناعية (Artificial Neurons): وهي الوحدات الأساسية للمعالجة في الشبكة. كل عصبون اصطناعي يتلقى إشارات من عصبونات أخرى متصلة به، ثم يُجري عليها عملية حسابية باستخدام دالة تنشيط، ويرسل الناتج إلى عصبونات أخرى. الحواف (Edges): تمثل الاتصالات بين العصبونات الاصطناعية، وهي شبيهة بالتشابكات العصبية (Synapses) في الدماغ. تحمل كل حافة وزنًا يحدد قوة تأثير العصبون المتصل به على العصبون الآخر. دالة التنشيط (Activation Function): هي دالة غير خطية تُطبق على مجموع مدخلات العصبون لإنتاج مخرجه. تُساعد دالة التنشيط على إدخال اللاخطية في الشبكة، مما يمكنها من نمذجة العلاقات المعقدة.
1.4. طبقات الشبكة العصبية (المدخلات، المخفية، المخرجات)
تُجمع العصبونات الاصطناعية عادة في طبقات. قد تؤدي كل طبقة تحويلات مختلفة على مدخلاتها. تتضمن الشبكة العصبية عادة ما يلي:
طبقة المدخلات (Input Layer): تتلقى هذه الطبقة البيانات الأولية التي تُدخل إلى الشبكة، مثل قيم الميزات في البيانات. طبقات مخفية (Hidden Layers): هي طبقات وسيطة بين طبقة المدخلات وطبقة المخرجات. تُستخدم هذه الطبقات لإجراء تحويلات معقدة على البيانات، حيث تتعلم ميزات ذات مستوى أعلى من الميزات الأولية. تُسمى الشبكة بالشبكة العصبية العميقة (Deep Neural Network) إذا كانت تحتوي على طبقتين مخفيتين أو أكثر. طبقة المخرجات (Output Layer): تنتج هذه الطبقة النتيجة النهائية للشبكة، مثل تصنيف عنصر معين أو التنبؤ بقيمة معينة. تنتقل الإشارات عبر الشبكة من طبقة المدخلات إلى طبقة المخرجات، مرورًا بالطبقات المخفية (إن وجدت).
1.5. استخدامات الشبكات العصبية
تستخدم الشبكات العصبية الاصطناعية في مجموعة واسعة من المهام، بما في ذلك:
النمذجة التنبؤية (Predictive Modeling): تستخدم للتنبؤ بقيم مستقبلية بناءً على البيانات التاريخية، مثل التنبؤ بالطقس أو أسعار الأسهم. التحكم التكيفي (Adaptive Control): تستخدم للتحكم في الأنظمة المعقدة التي تتغير سلوكياتها بمرور الوقت، مثل التحكم في الروبوتات أو الطائرات. حل المشكلات في الذكاء الاصطناعي (Artificial Intelligence): تُستخدم في مهام مثل التعرف على الصور، ومعالجة اللغة الطبيعية، والترجمة الآلية، والألعاب. تتميز الشبكات العصبية بقدرتها على التعلم من الخبرة، واستخلاص استنتاجات من البيانات المعقدة وغير المترابطة على ما يبدو.
1.6. التدريب وخوارزميات التعلم
تُدرب الشبكات العصبية عادةً من خلال تقليل الخطأ التجريبي (Empirical Risk Minimization). تعتمد هذه الطريقة على تحسين معاملات الشبكة لتقليل الفرق بين المخرجات المتوقعة والقيم المستهدفة الفعلية في مجموعة بيانات معينة. تُستخدم عادةً طرق قائمة على التدرج (Gradient-Based Methods) مثل الانتشار الخلفي (Backpropagation) لتقدير معاملات الشبكة.
خلال مرحلة التدريب، تتعلم الشبكات العصبية من بيانات التدريب المصنفة عن طريق تحديث معاملات الشبكة بشكل متكرر لتقليل دالة الخسارة (Loss Function) المحددة. تتيح هذه الطريقة للشبكة التعميم على البيانات غير المرئية.
الفصل 2
2. مثال مبسط لتدريب الشبكة العصبية
2.1. التدريب على كشف الأجسام (نجم البحر وقنفذ البحر)
لفهم كيفية عمل الشبكات العصبية، لنأخذ مثالاً بسيطًا لتدريب شبكة عصبية على التعرف على نوعين من الكائنات البحرية: نجم البحر وقنفذ البحر. في هذه الحالة، يتم تغذية الشبكة بصور لهذه الكائنات، حيث تكون كل صورة مصحوبة بتصنيف صحيح (أي هل الصورة لنجم بحر أم لقنفذ بحر). خلال عملية التدريب، تتعلم الشبكة استخراج الميزات المرئية الهامة التي تميز بين هذين النوعين.
2.2. تأثير الارتباطات الضعيفة على النتائج
لنفترض أن الشبكة قد ربطت بين نجم البحر وبين الميزات التالية: شكل النجمة، والملمس الحلقي. في المقابل، ربطت قنفذ البحر بالميزات: الشكل البيضاوي، والملمس المخطط. الآن، تخيل أن الشبكة تلقت صورة لقنفذ بحر ذي ملمس حلقي، وهو أمر نادر. في هذه الحالة، قد تنشأ ارتباطات ضعيفة بين هذه الميزات غير المعتادة وبين تصنيف قنفذ البحر. هذا الارتباط الضعيف قد يؤثر لاحقاً على أداء الشبكة، حيث قد تعطي الشبكة إشارة ضعيفة بأن الصورة لقنفذ البحر حتى لو لم يكن كذلك.
2.3. أهمية التمثيل الصحيح للميزات
يوضح هذا المثال أهمية التمثيل الصحيح للميزات في الشبكات العصبية. ففي الواقع، لا يتم تمثيل الميزات (مثل الملمس والشكل) بواسطة عقدة واحدة في الشبكة، بل من خلال أنماط أوزان مرتبطة بعدة عقد. هذا يسمح للشبكة بالتعامل مع التغيرات في الميزات والارتباطات الأكثر تعقيدًا. بمعنى آخر، بدلاً من أن يكون هناك عقدة واحدة تمثل “الملمس الحلقي”، سيكون هناك عدة عقد تعمل معًا، وكل منها يساهم في تحديد هذا الملمس. هذا التمثيل الموزع للميزات يجعل الشبكة أكثر قوة ومرونة في التعامل مع البيانات الحقيقية. بالإضافة إلى ذلك، يتيح للشبكة التعامل مع الميزات المتشابهة بين الفئات المختلفة بشكل فعال، مما يقلل من احتمالية إعطاء نتائج خاطئة بسبب الارتباطات الضعيفة.
الربط بالفصول الأخرى: الفصل 3
3. تاريخ الشبكات العصبية
3.1. الأعمال المبكرة في الإحصاء
تعود جذور الشبكات العصبية العميقة الحالية إلى أعمال مبكرة في مجال الإحصاء قبل أكثر من 200 عام. أبسط أنواع الشبكات العصبية ذات التغذية الأمامية (FNN) هي الشبكة الخطية، التي تتكون من طبقة واحدة من عقد الإخراج ذات دوال التنشيط الخطية. في هذه الشبكة، يتم تغذية المدخلات مباشرة إلى المخرجات عبر سلسلة من الأوزان. يتم حساب مجموع نواتج الأوزان والمدخلات عند كل عقدة، ويتم تقليل متوسط الأخطاء التربيعية بين هذه المخرجات المحسوبة والقيم المستهدفة المعطاة عن طريق تعديل الأوزان. عُرفت هذه التقنية منذ أكثر من قرنين باسم طريقة المربعات الصغرى أو الانحدار الخطي، وقد استخدمها كل من ليجندر (1805) وجاوس (1795) للتنبؤ بحركة الكواكب.
3.2. الشبكات العصبية الخطية
تعتبر الشبكات العصبية الخطية، كما ذكر أعلاه، من أبسط أنواع الشبكات العصبية، حيث تعتمد على علاقات خطية بين المدخلات والمخرجات. هذه الشبكات مفيدة في العديد من التطبيقات التي يمكن فيها تمثيل العلاقة بين المتغيرات بشكل خطي. ومع ذلك، فإنها لا تستطيع التعامل مع المشاكل المعقدة التي تتطلب نماذج غير خطية، مما أدى إلى تطوير شبكات عصبية أكثر تعقيدًا.
3.3. مقارنة نموذج فون نيومان مع نموذج الاتصالية
تاريخيًا، تعمل الحواسيب الرقمية مثل نموذج فون نيومان من خلال تنفيذ تعليمات صريحة مع الوصول إلى الذاكرة بواسطة عدد من المعالجات. على الجانب الآخر، نشأت بعض الشبكات العصبية من جهود لمحاكاة معالجة المعلومات في الأنظمة البيولوجية من خلال إطار الاتصالية. على عكس نموذج فون نيومان، فإن الحوسبة الاتصالية لا تفصل بين الذاكرة والمعالجة.
3.4. نموذج ماكولوك وبيتس
في عام 1943، قام وارن ماكولوك ووالتر بيتس بتطوير نموذج حسابي غير تعليمي للشبكات العصبية. مهد هذا النموذج الطريق لتقسيم البحث إلى اتجاهين: اتجاه يركز على العمليات البيولوجية واتجاه آخر يركز على تطبيق الشبكات العصبية في الذكاء الاصطناعي.
3.5. فرضية هيب والتعلم الهيبي
في أواخر الأربعينيات، اقترح د. أ. هيب فرضية للتعلم مبنية على آلية اللدونة العصبية، والتي أصبحت تعرف باسم التعلم الهيبي. وقد استخدمت هذه الفرضية في العديد من الشبكات العصبية المبكرة، مثل البيرسيبترون لروزنبلات وشبكة هوبفيلد. قام فارلي وكلارك (1954) باستخدام آلات حوسبة لمحاكاة شبكة هيبية. كما تم إنشاء آلات حوسبة أخرى للشبكات العصبية بواسطة روشستر وهولاند وهابيت ودودا (1956).
3.6. جهاز الفارلي وكلارك
في عام 1954، قام فارلي وكلارك بإنشاء جهاز يحاكي شبكة هيبية باستخدام آلات الحوسبة. هذا الجهاز كان من أوائل المحاولات لتطبيق مفاهيم التعلم الهيبي على أجهزة حوسبة فعلية، وقد مهد الطريق لتطوير المزيد من النماذج والأجهزة العصبية.
3.7. جهاز روشستر وهولاند وهابيت ودودا
في عام 1956، قام روشستر وهولاند وهابيت ودودا بإنشاء جهاز آخر للشبكات العصبية. هذا الجهاز كان أيضًا من أوائل المحاولات لتطوير أنظمة عصبية اصطناعية قادرة على التعلم.
3.8. البيرسيبترون لروزنبلات
في عام 1958، وصف عالم النفس فرانك روزنبلات البيرسيبترون، وهو أحد أوائل الشبكات العصبية الاصطناعية التي تم تطبيقها، بدعم من مكتب البحوث البحرية الأمريكي. ذكر ر. د. جوزيف (1960) جهازًا سابقًا مشابهًا للبيرسيبترون من قبل فارلي وكلارك. أثار البيرسيبترون حماسًا عامًا للبحث في الشبكات العصبية الاصطناعية، مما أدى إلى زيادة كبيرة في التمويل الحكومي الأمريكي. ساهم هذا في “العصر الذهبي للذكاء الاصطناعي”، مدفوعًا بالمزاعم المتفائلة التي أطلقها علماء الكمبيوتر بشأن قدرة البيرسيبترونات على محاكاة الذكاء البشري.
3.9. الأيام الذهبية للذكاء الاصطناعي
شهدت فترة الستينيات ما يسمى بـ “الأيام الذهبية للذكاء الاصطناعي” نتيجة للتفاؤل الكبير حول إمكانيات البيرسيبترون والشبكات العصبية الأخرى. تم تخصيص مبالغ كبيرة لتمويل الأبحاث في هذا المجال، ولكن هذا التفاؤل سرعان ما تضاءل بسبب القيود التي ظهرت في قدرات هذه النماذج.
3.10. البيرسيبترونات متعددة الطبقات
لم يكن لدى البيرسيبترونات الأولى وحدات مخفية قابلة للتكيف. ومع ذلك، ناقش جوزيف (1960) أيضًا البيرسيبترونات متعددة الطبقات مع طبقة مخفية قابلة للتكيف. استشهد روزنبلات (1962) بهذه الأفكار واعتمدها، وأرجع الفضل أيضًا إلى عمل هـ. د. بلوك وب. و. نايت. لسوء الحظ، لم تؤد هذه الجهود المبكرة إلى خوارزمية تعلم عملية للوحدات المخفية، أي التعلم العميق.
3.11. اختراقات التعلم العميق في الستينات والسبعينات
أُجريت أبحاث أساسية على الشبكات العصبية الاصطناعية في الستينيات والسبعينيات. كانت أول خوارزمية تعلم عميق عملية هي طريقة معالجة البيانات الجماعية، وهي طريقة لتدريب الشبكات العصبية العميقة بشكل تعسفي، نشرها أليكسي إيفاخنينكو ولابا في الاتحاد السوفيتي (1965). اعتبراها شكلاً من أشكال الانحدار متعدد الحدود، أو تعميم لبيرسيبترون روزنبلات. وصفت ورقة بحثية عام 1971 شبكة عميقة ذات ثماني طبقات تم تدريبها بهذه الطريقة، والتي تعتمد على التدريب طبقة تلو طبقة من خلال تحليل الانحدار. يتم تقليم الوحدات المخفية الزائدة باستخدام مجموعة تحقق منفصلة. نظرًا لأن دوال التنشيط للعقد هي متعددات حدود كولموجوروف-غابور، فقد كانت هذه أيضًا أولى الشبكات العميقة ذات الوحدات المضاعفة أو “البوابات”.
3.11.1. طريقة معالجة البيانات الجماعية
تعتبر طريقة معالجة البيانات الجماعية التي طورها إيفاخنينكو ولابا من أوائل الطرق الناجحة لتدريب الشبكات العصبية العميقة. كانت هذه الطريقة تعتمد على تدريب الشبكة طبقة تلو الأخرى باستخدام تحليل الانحدار، مما سمح بتدريب شبكات ذات أعماق أكبر مما كان ممكنًا في ذلك الوقت.
3.11.2. أول شبكة عصبية عميقة مدربة بالانحدار العشوائي
أُعلنت أول شبكة عصبية متعددة الطبقات عميقة مدربة بالانحدار العشوائي في عام 1967 من قبل شون إيتشي أماري. في تجارب الكمبيوتر التي أجراها طالب أماري سايتو، تعلمت شبكة MLP ذات خمس طبقات ذات طبقتين قابلتين للتعديل تمثيلات داخلية لتصنيف فئات الأنماط غير القابلة للفصل خطيًا. وقد جعلت التطورات اللاحقة في الأجهزة وضبط المعلمات الفائقة الانحدار العشوائي من النهاية إلى النهاية أسلوب التدريب السائد حاليًا.
3.11.3. دالة التنشيط ReLU
في عام 1969، قدم كونيهيكو فوكوشيما دالة التنشيط ReLU (وحدة الخط المستقيم المصححة). أصبحت المصحح دالة التنشيط الأكثر شيوعًا للتعلم العميق.
3.11.4. توقف الأبحاث بعد انتقادات مينسكي وبابيرت
توقفت الأبحاث في الولايات المتحدة في أعقاب عمل مينسكي وبابيرت (1969)، اللذين أكدا أن البيرسيبترونات الأساسية غير قادرة على معالجة دائرة XOR. كان هذا الرأي غير ذي صلة بالشبكات العميقة لإيفاخنينكو (1965) وأماري (1967).
3.11.5. إدخال التعلم بالنقل
في عام 1976، تم تقديم مفهوم التعلم بالنقل في تعلم الشبكات العصبية. هذا المفهوم سمح بإعادة استخدام نماذج مدربة على مهام معينة للتعلم في مهام جديدة، مما أدى إلى تسريع عملية التعلم وتحسين الأداء.
3.12. الشبكات العصبية التلافيفية (CNNs)
بدأت بنيات التعلم العميق للشبكات العصبية التلافيفية (CNNs) ذات الطبقات التلافيفية وطبقات أخذ العينات وطبقات تكرار الأوزان مع Neocognitron الذي قدمه كونيهيكو فوكوشيما في عام 1979، على الرغم من أنها لم يتم تدريبها عن طريق الانتشار الخلفي.
3.12.1. النيوكوغنيترون لفوشيما
كان النيوكوغنيترون الذي طوره فوكوشيما في عام 1979 من أوائل الشبكات العصبية التلافيفية. تم تصميم هذا النموذج للتعرف على الأنماط البصرية، وقد استخدمت فيه طبقات تلافيفية وطبقات أخذ عينات لتقليل حجم البيانات مع الحفاظ على المعلومات المهمة.
3.12.2. التلافيف والطبقات التحتية
تستخدم الشبكات العصبية التلافيفية (CNNs) عمليات التلافيف لاستخلاص الميزات من البيانات المدخلة. تتضمن هذه العمليات تطبيق مجموعة من المرشحات على البيانات، مما يساعد على اكتشاف الأنماط والتراكيب المختلفة. بالإضافة إلى ذلك، تستخدم الشبكات التلافيفية طبقات أخذ العينات لتقليل حجم البيانات وزيادة كفاءة الحساب.
3.13. الانتشار الخلفي (Backpropagation)
الانتشار الخلفي هو تطبيق فعال لقاعدة السلسلة التي اشتقها جوتفريد فيلهلم ليبنيز في عام 1673 على شبكات العقد القابلة للاشتقاق. تم تقديم مصطلح “أخطاء الانتشار الخلفي” في الواقع في عام 1962 بواسطة روزنبلات، لكنه لم يعرف كيفية تنفيذ ذلك، على الرغم من أن هنري ج. كيلي كان لديه مقدمة مستمرة للانتشار الخلفي في عام 1960 في سياق نظرية التحكم. في عام 1970، نشر سيبو لينينما الشكل الحديث للانتشار الخلفي في أطروحته للماجستير. أعاد جي. إم. أوستروفسكي وآخرون نشره في عام 1971. طبق بول ويربوس الانتشار الخلفي على الشبكات العصبية في عام 1982. في عام 1986، قام ديفيد إي روميلهارت وآخرون بتعميم الانتشار الخلفي لكنهم لم يذكروا العمل الأصلي.
3.13.1. أصل خوارزمية الانتشار الخلفي
تعود أصول خوارزمية الانتشار الخلفي إلى قاعدة السلسلة في حساب التفاضل والتكامل، التي طورها ليبنيز في القرن السابع عشر. تم استخدام هذه القاعدة لحساب مشتقات الدوال المركبة، وقد تم تطبيقها في سياق الشبكات العصبية لحساب التدرجات التي تستخدم لتحديث أوزان الشبكة.
3.13.2. تطبيق الانتشار الخلفي في الشبكات العصبية
يعتبر الانتشار الخلفي من أهم الخوارزميات في تدريب الشبكات العصبية. تعمل هذه الخوارزمية عن طريق حساب التدرجات الخطأ في طبقات الشبكة المختلفة، ثم استخدام هذه التدرجات لتحديث أوزان الشبكة في الاتجاه الذي يقلل من الخطأ.
3.14. الشبكات العصبية التلافيفية (CNNs)
قامت بنية الشبكة العصبية التلافيفية (CNN) التي قدمها كونيهيكو فوكوشيما في عام 1979 أيضًا بتقديم التجميع الأقصى، وهو إجراء أخذ عينات شائع للشبكات العصبية التلافيفية. أصبحت الشبكات العصبية التلافيفية أداة أساسية للرؤية الحاسوبية.
3.14.1. تجميع القيمة القصوى
تعتبر عملية تجميع القيمة القصوى من العمليات الشائعة في الشبكات العصبية التلافيفية. يتم استخدام هذه العملية لتقليل حجم الخرائط المميزة وزيادة مقاومة الشبكة للتغيرات الطفيفة في المدخلات. يتم تطبيق هذه العملية عن طريق اختيار القيمة القصوى من مجموعة من الخلايا المجاورة.
3.14.2. شبكة تأخير الوقت العصبية (TDNN)
تم تقديم شبكة تأخير الوقت العصبية (TDNN) في عام 1987 بواسطة أليكس ويبيل لتطبيق الشبكة العصبية التلافيفية على التعرف على الصوت. استخدمت التلافيف ومشاركة الأوزان والانتشار الخلفي. في عام 1988، طبق وي تشانغ شبكة CNN مدربة على الانتشار الخلفي للتعرف على الحروف الأبجدية. في عام 1989، أنشأ يان ليكن وآخرون شبكة CNN تسمى LeNet للتعرف على الرموز البريدية المكتوبة بخط اليد على البريد. تطلب التدريب 3 أيام. في عام 1990، قام وي تشانغ بتطبيق شبكة CNN على أجهزة الحوسبة الضوئية. في عام 1991، تم تطبيق شبكة CNN على تجزئة كائنات الصور الطبية والكشف عن سرطان الثدي في الصور الشعاعية للثدي. تم تطبيق LeNet-5 (1998)، وهي شبكة CNN ذات 7 مستويات بواسطة يان ليكن وآخرون، والتي تصنف الأرقام، من قبل العديد من البنوك للتعرف على الأرقام المكتوبة بخط اليد على الشيكات الرقمية في صور بدقة 32 × 32 بكسل.
3.14.3. تطبيق CNN على التعرف على الحروف والأرقام
أظهرت الشبكات العصبية التلافيفية (CNNs) أداءً عاليًا في تطبيقات التعرف على الحروف والأرقام. تم استخدام هذه الشبكات لتطوير أنظمة قادرة على قراءة النصوص المكتوبة بخط اليد والتعرف على الحروف والأرقام في الصور.
3.14.4. LeNet بواسطة يان ليكن
تعتبر LeNet من أوائل الشبكات العصبية التلافيفية الناجحة. تم تطوير هذه الشبكة بواسطة يان ليكن في أواخر الثمانينيات واستخدمت للتعرف على الأرقام المكتوبة بخط اليد. لا تزال LeNet تعتبر نموذجًا هامًا في مجال الرؤية الحاسوبية.
3.14.5. تطبيق CNN في التصوير الطبي
تم تطبيق الشبكات العصبية التلافيفية في العديد من تطبيقات التصوير الطبي، بما في ذلك الكشف عن الأورام السرطانية في الصور الطبية. أظهرت هذه الشبكات أداءً متميزًا في هذا المجال، مما ساهم في تحسين دقة التشخيص وسرعة الاكتشاف المبكر للأمراض.
3.15. الشبكات العصبية المتكررة (RNNs)
كان أحد أصول الشبكة العصبية المتكررة هو الميكانيكا الإحصائية. في عام 1972، اقترح شون إيتشي أماري تعديل أوزان نموذج آيزينج بقاعدة التعلم الهيبي كنموذج للذاكرة الترابطية، مع إضافة مكون التعلم. وقد تم تعميم ذلك على أنه شبكة هوبفيلد بواسطة جون هوبفيلد (1982). كان أصل آخر للشبكة العصبية المتكررة هو علم الأعصاب. تُستخدم كلمة “متكرر” لوصف الهياكل الشبيهة بالحلقة في علم التشريح. في عام 1901، لاحظ كاخال “أنصاف الدوائر المتكررة” في القشرة المخيخية. اعتبر هيب “الدائرة المترددة” تفسيرًا للذاكرة قصيرة المدى. نظرت ورقة ماكولوك وبيتس (1943) في الشبكات العصبية التي تحتوي على دورات، ولاحظت أن النشاط الحالي لهذه الشبكات يمكن أن يتأثر بالنشاط إلى أجل غير مسمى في الماضي.
3.15.1. أصل الشبكات المتكررة من الميكانيكا الإحصائية وعلم الأعصاب
يعود أصل الشبكات العصبية المتكررة إلى مجالات الميكانيكا الإحصائية وعلم الأعصاب. في الميكانيكا الإحصائية، تم استخدام نماذج مثل نموذج آيزينج لفهم سلوك الأنظمة المعقدة، وقد تم تطبيق هذه النماذج على الشبكات العصبية لإنشاء ذاكرة ترابطية. في علم الأعصاب، تم استخدام الشبكات المتكررة لنمذجة الدوائر العصبية المتكررة في الدماغ، التي يعتقد أنها تلعب دورًا في الذاكرة قصيرة المدى.
3.15.2. الشبكات المتكررة المبكرة (جوردان وإلمان)
من الأعمال المبكرة المؤثرة شبكة جوردان (1986) وشبكة إلمان (1990)، اللتان طبقتا الشبكة العصبية المتكررة لدراسة علم النفس المعرفي. وقد أظهرت هذه الشبكات قدرة على معالجة البيانات المتسلسلة، مما جعلها مناسبة لتطبيقات مثل التعرف على الكلام وفهم اللغة الطبيعية.
3.15.3. الشبكة العصبية المتسلسلة أو ضاغط التاريخ العصبي
في الثمانينيات، لم يكن الانتشار الخلفي يعمل بشكل جيد مع الشبكات العصبية المتكررة العميقة. للتغلب على هذه المشكلة، اقترح يورغن شميدهوبر في عام 1991 “مقطِّع التسلسل العصبي” أو “ضاغط التاريخ العصبي”، الذي قدم المفاهيم الهامة للتدريب المسبق الخاضع للإشراف الذاتي (“P” في ChatGPT) وتقطير المعرفة العصبية. في عام 1993، حل نظام ضاغط التاريخ العصبي مهمة “التعلم العميق جدًا” التي تطلبت أكثر من 1000 طبقة متتالية في شبكة RNN تم كشفها بمرور الوقت.
3.15.4. مشكلة تلاشي التدرج
تعتبر مشكلة تلاشي التدرج من المشاكل الرئيسية التي تواجه تدريب الشبكات العصبية المتكررة. تحدث هذه المشكلة عندما يصبح التدرج صغيرًا جدًا مع تقدم الشبكة في العمق، مما يجعل من الصعب على الشبكة تعلم المعلومات من الطبقات السابقة.
3.15.5. الذاكرة طويلة المدى القصيرة (LSTM)
في عام 1991، حددت أطروحة دبلوم سيب هوكريتر وحللت مشكلة تلاشي التدرج، واقترحت اتصالات متبقية متكررة لحلها. قدم هو وشميدهوبر الذاكرة طويلة المدى القصيرة (LSTM)، التي سجلت دقة قياسية في مجالات تطبيقات متعددة. لم تكن هذه هي النسخة الحديثة من LSTM، التي تطلبت بوابة النسيان، التي تم تقديمها في عام 1999. وقد أصبحت الخيار الافتراضي لبنية الشبكة العصبية المتكررة.
3.15.6. آلة بولتزمان والآلة المقيدة، آلة هلمهولتز، وخوارزمية النوم-الاستيقاظ
خلال الفترة 1985-1995، مستوحاة من الميكانيكا الإحصائية، تم تطوير العديد من البنى والأساليب من قبل تيري سيجنووسكي وبيتر دايان وجيفري هينتون وغيرهم، بما في ذلك آلة بولتزمان وآلة بولتزمان المقيدة وآلة هيلمهولتز وخوارزمية النوم والاستيقاظ. تم تصميم هذه النماذج للتعلم غير الخاضع للإشراف للنماذج التوليدية العميقة.
3.16. التعلم العميق
بين عامي 2009 و2012، بدأت الشبكات العصبية الاصطناعية في الفوز بجوائز في مسابقات التعرف على الصور، واقتربت من مستوى الأداء البشري في مهام مختلفة، في البداية في التعرف على الأنماط والتعرف على الكتابة اليدوية. في عام 2011، حققت شبكة CNN تسمى DanNet من قبل دان سيريسان وأولي ماير وجوناثان ماسكي ولوكا ماريا جامبارديلا ويورغن شميدهوبر لأول مرة أداءً فائقًا بشريًا في مسابقة التعرف على الأنماط البصرية، متجاوزة الطرق التقليدية بعامل 3. ثم فازت بالمزيد من المسابقات. وأظهروا أيضًا كيف أن الشبكات العصبية التلافيفية ذات التجميع الأقصى على وحدة معالجة الرسومات قد حسنت الأداء بشكل كبير.
3.16.1. فوز الشبكات العصبية في مسابقات التعرف على الصور
شهدت الفترة بين عامي 2009 و 2012 طفرة في أداء الشبكات العصبية الاصطناعية، حيث بدأت في الفوز بمسابقات التعرف على الصور وتحقيق أداء يقارب الأداء البشري في بعض المهام. كان هذا النجاح نتيجة لتطور تقنيات التعلم العميق وزيادة قوة الحوسبة المتاحة.
3.16.2. AlexNet والفوز في مسابقة ImageNet
في أكتوبر 2012، فازت AlexNet التي قام بها أليكس كريزيفسكي وإيليا سوتسكيفير وجيفري هينتون بمسابقة ImageNet واسعة النطاق بهامش كبير مقارنة بطرق التعلم الآلي الضحلة. شملت المزيد من التحسينات التدريجية شبكة VGG-16 بواسطة كارين سيمونيان وأندرو زيسرمان وInceptionv3 من جوجل.
3.16.3. VGG-16 وInceptionv3
تعتبر VGG-16 وInceptionv3 من الشبكات العصبية التلافيفية الهامة التي ساهمت في تحسين الأداء في مجال الرؤية الحاسوبية. تتميز VGG-16 ببنيتها العميقة والمتسقة، بينما تتميز Inceptionv3 ببنيتها المعقدة التي تسمح لها بالتعامل مع التغيرات الكبيرة في حجم الكائنات في الصورة.
3.16.4. تعلم المفاهيم العليا من الصور غير المصنفة
في عام 2012، أنشأ نج ودين شبكة تعلمت التعرف على مفاهيم عالية المستوى، مثل القطط، فقط من مشاهدة الصور غير المصنفة. سمح التدريب المسبق غير الخاضع للإشراف وزيادة قوة الحوسبة من وحدات معالجة الرسومات والحوسبة الموزعة باستخدام شبكات أكبر، خاصة في مشاكل الصور والتعرف المرئي، والتي أصبحت تُعرف باسم “التعلم العميق”.
3.16.5. الشبكات ذات الدوال الأساسية الشعاعية والموجية
تم تقديم الشبكات ذات الدوال الأساسية الشعاعية والموجية في عام 2013. يمكن إظهار أن هذه الشبكات تقدم خصائص أفضل تقريب وقد تم تطبيقها في تطبيقات تحديد وتصنيف الأنظمة غير الخطية.
3.16.6. الشبكات التوليدية الخصومية (GANs)
أصبحت الشبكة التوليدية الخصومية (GAN) (إيان غودفيلو وآخرون، 2014) هي الأحدث في النمذجة التوليدية خلال الفترة 2014-2018. تم نشر مبدأ GAN في الأصل في عام 1991 بواسطة يورغن شميدهوبر الذي أطلق عليه اسم “الفضول الاصطناعي”: تتنافس شبكتان عصبيتان مع بعضهما البعض في شكل لعبة محصلتها صفر، حيث يكون ربح إحدى الشبكات هو خسارة الشبكة الأخرى. الشبكة الأولى هي نموذج توليدي يمثل توزيع الاحتمالية على أنماط الإخراج. تتعلم الشبكة الثانية عن طريق الانحدار المتدرج للتنبؤ بردود فعل البيئة على هذه الأنماط. يتم تحقيق جودة صورة ممتازة بواسطة StyleGAN من Nvidia (2018) استنادًا إلى Progressive GAN بواسطة تيرو كاراس وآخرون. هنا، يتم نمو مولد GAN من نطاق صغير إلى نطاق واسع بطريقة هرمية. حقق توليد الصور بواسطة GAN نجاحًا شعبيًا، وأثار مناقشات حول التزييف العميق.
3.16.7. نماذج الانتشار
تفوقت نماذج الانتشار (2015) على شبكات GAN في النمذجة التوليدية منذ ذلك الحين، مع أنظمة مثل DALL-E 2 (2022) وStable Diffusion (2022).
3.16.8. مشكلة “التدهور” والشبكات ذات الارتداد (ResNet)
في عام 2014، كانت أحدث التقنيات هي تدريب “شبكة عصبية عميقة جدًا” ذات 20 إلى 30 طبقة. أدى تكديس الكثير من الطبقات إلى انخفاض حاد في دقة التدريب، وهي مشكلة تعرف باسم “التدهور”. في عام 2015، تم تطوير تقنيتين لتدريب الشبكات العميقة جدًا: تم نشر شبكة الطريق السريع في مايو 2015، والشبكة العصبية المتبقية (ResNet) في ديسمبر 2015. تتصرف ResNet مثل شبكة طريق سريع ذات بوابة مفتوحة.
3.17. المحولات (Transformers)
خلال العقد الأول من القرن الحادي والعشرين، تم تطوير نموذج التسلسل إلى التسلسل، وأضيفت آليات الانتباه. أدى ذلك إلى بنية المحولات الحديثة في عام 2017 في “الانتباه هو كل ما تحتاجه”. يتطلب وقت حسابي تربيعي في حجم نافذة السياق. يتحرك المتحكم السريع في الوزن ليورغن شميدهوبر (1992) بشكل خطي وقد ثبت لاحقًا أنه مكافئ للمحول الخطي غير الطبيعي. أصبحت المحولات بشكل متزايد النموذج المفضل لمعالجة اللغة الطبيعية. تستخدم العديد من النماذج اللغوية الكبيرة الحديثة مثل ChatGPT وGPT-4 وBERT هذه البنية.
3.17.1. نموذج التسلسل إلى التسلسل
يعتبر نموذج التسلسل إلى التسلسل (seq2seq) من النماذج الهامة في معالجة البيانات المتسلسلة. يتكون هذا النموذج من جزأين رئيسيين: مشفر (encoder) يقوم بتحويل تسلسل الإدخال إلى تمثيل وسيط، ومفكك (decoder) يقوم بتحويل التمثيل الوسيط إلى تسلسل الإخراج.
3.17.2. آلية الانتباه
تعتبر آلية الانتباه من أهم المكونات في بنية المحولات. تسمح هذه الآلية للنموذج بالتركيز على أجزاء معينة من تسلسل الإدخال عند توليد تسلسل الإخراج، مما يحسن من قدرة النموذج على فهم العلاقات بين الكلمات في النص.
3.17.3. استخدام المحولات في معالجة اللغة الطبيعية (NLP)
أصبحت المحولات من النماذج السائدة في معالجة اللغة الطبيعية (NLP). لقد أظهرت هذه النماذج أداءً متميزًا في العديد من المهام، بما في ذلك الترجمة الآلية، وفهم اللغة الطبيعية، وتوليد النصوص.
3.17.4. النماذج اللغوية الكبيرة (ChatGPT, GPT-4, BERT)
تعتبر النماذج اللغوية الكبيرة مثل ChatGPT وGPT-4 وBERT من النماذج القوية التي تعتمد على بنية المحولات. تم تدريب هذه النماذج على كميات هائلة من البيانات النصية، مما جعلها قادرة على فهم اللغة الطبيعية وتوليد نصوص عالية الجودة.
الفصل 4
4. نماذج الشبكات العصبية
4.1. تحول الشبكات العصبية من النماذج البيولوجية إلى تحسين النتائج التجريبية
بدأت الشبكات العصبية الاصطناعية كمحاولة لاستغلال بنية الدماغ البشري لتنفيذ مهام كانت الخوارزميات التقليدية غير ناجحة فيها. ومع ذلك، سرعان ما تحولت هذه الشبكات نحو تحسين النتائج التجريبية، متخلية عن محاولات الالتزام الصارم بأصولها البيولوجية. يكمن جوهر هذا التحول في التركيز على الأداء العملي والقدرة على معالجة البيانات المعقدة، بدلاً من الاكتفاء بمحاكاة بنية الدماغ بشكل دقيق.
4.2. قدرة الشبكات العصبية على تعلم العلاقات غير الخطية والمعقدة
تتميز الشبكات العصبية الاصطناعية بقدرتها على تعلم ونمذجة العلاقات غير الخطية والمعقدة. هذه القدرة هي ما يجعلها قوية في التعامل مع البيانات التي لا يمكن وصفها بسهولة من خلال نماذج رياضية بسيطة. يتم تحقيق هذه القدرة من خلال توصيل الخلايا العصبية بأنماط مختلفة، مما يسمح لمخرجات بعض الخلايا العصبية بأن تصبح مدخلات لخلايا أخرى. تشكل الشبكة رسماً بيانياً موجهاً وموزوناً، حيث تمثل العقد الخلايا العصبية وتمثل الحواف الروابط بينها.
4.3. الخلايا العصبية الاصطناعية
4.3.1. المدخلات والمخرجات
تتكون الشبكات العصبية الاصطناعية من خلايا عصبية محاكية، مستوحاة من الخلايا العصبية البيولوجية. كل خلية عصبية اصطناعية لها مدخلات وتنتج مخرجًا واحدًا يمكن إرساله إلى خلايا عصبية أخرى. يمكن أن تكون المدخلات قيم الميزات لعينة من البيانات الخارجية، مثل الصور أو المستندات، أو يمكن أن تكون مخرجات خلايا عصبية أخرى. تحقق مخرجات الخلايا العصبية النهائية في الشبكة العصبية المهمة المطلوبة، مثل التعرف على كائن في صورة.
4.3.2. دالة التنشيط
لإيجاد مخرج الخلية العصبية، نأخذ المجموع الموزون لجميع المدخلات، مع وزن كل مدخل بوزن الاتصال من المدخل إلى الخلية العصبية. نضيف مصطلح تحيز إلى هذا المجموع. يسمى هذا المجموع الموزون أحيانًا التنشيط. ثم يتم تمرير هذا المجموع الموزون عبر دالة تنشيط (عادة ما تكون غير خطية) لإنتاج المخرج. المدخلات الأولية هي بيانات خارجية، مثل الصور والمستندات. تحقق المخرجات النهائية المهمة المطلوبة، مثل التعرف على كائن في صورة.
4.3.3. التحيز
يلعب التحيز دوراً هاماً في الخلايا العصبية الاصطناعية، حيث يتيح للخلية العصبية أن تتفاعل حتى في حالة غياب إشارات المدخل. يضاف التحيز إلى مجموع المدخلات الموزونة قبل تمريرها عبر دالة التنشيط. يعمل التحيز كعامل تعديل يسمح للشبكة العصبية بتعلم الأنماط بشكل أكثر مرونة.
4.4. تنظيم الخلايا العصبية في طبقات
4.4.1. الطبقة المدخلة، الطبقات المخفية، والطبقة المخرجة
عادةً ما يتم تنظيم الخلايا العصبية في طبقات متعددة، خاصة في التعلم العميق. تتصل الخلايا العصبية في طبقة واحدة فقط بالخلايا العصبية في الطبقات السابقة واللاحقة مباشرة. الطبقة التي تتلقى البيانات الخارجية هي طبقة الإدخال. والطبقة التي تنتج النتيجة النهائية هي طبقة الإخراج. بينهما توجد صفر أو أكثر من الطبقات المخفية. تُستخدم أيضًا الشبكات ذات الطبقة الواحدة وغير الطبقات.
4.4.2. أنماط الاتصال بين الطبقات (الاتصال الكامل، التجميع)
بين طبقتين، توجد أنماط اتصال متعددة ممكنة. يمكن أن تكون “متصلة بالكامل”، حيث تتصل كل خلية عصبية في طبقة ما بكل خلية عصبية في الطبقة التالية. ويمكن أن تكون “تجميع”، حيث تتصل مجموعة من الخلايا العصبية في طبقة واحدة بخلية عصبية واحدة في الطبقة التالية، مما يقلل عدد الخلايا العصبية في تلك الطبقة.
4.4.3. الشبكات ذات التغذية الأمامية والمتكررة
تشكل الخلايا العصبية التي لها هذه الاتصالات فقط رسماً بيانياً موجهاً لا دورياً وتُعرف باسم الشبكات ذات التغذية الأمامية. بدلاً من ذلك، تُعرف الشبكات التي تسمح بالاتصالات بين الخلايا العصبية في نفس الطبقات أو الطبقات السابقة بالشبكات المتكررة.
4.5. المعلمات الفائقة (Hyperparameters)
المعلمة الفائقة هي معلمة ثابتة يتم تعيين قيمتها قبل بدء عملية التعلم. يتم اشتقاق قيم المعلمات عبر التعلم. تتضمن أمثلة المعلمات الفائقة معدل التعلم وعدد الطبقات المخفية وحجم الدفعة. يمكن أن تعتمد قيم بعض المعلمات الفائقة على قيم المعلمات الفائقة الأخرى. على سبيل المثال، يمكن أن يعتمد حجم بعض الطبقات على العدد الإجمالي للطبقات.
الفصل 5
الفصل الخامس: التعلم في الشبكات العصبية
5.1 التكيف مع المهام من خلال ملاحظة البيانات
التعلم في الشبكات العصبية هو عملية أساسية تمكن هذه الشبكات من أداء المهام المطلوبة بكفاءة. يتمثل جوهر هذه العملية في تكييف الشبكة لتحقيق أداء أفضل في مهمة معينة، وذلك من خلال معالجة وتحليل البيانات التي يتم تزويدها بها. هذا التكيف يعتمد بشكل أساسي على ملاحظة “أمثلة” أو “حالات” من البيانات، حيث تعمل الشبكة على استخلاص الأنماط والعلاقات الكامنة في هذه البيانات.
5.2 تعديل الأوزان لتقليل الأخطاء
تعتمد عملية التعلم بشكل أساسي على تعديل قيم “الأوزان” و “التحيزات” في الشبكة. هذه الأوزان والتحيزات هي قيم رقمية تحدد قوة وتأثير الاتصالات بين الخلايا العصبية المختلفة. خلال عملية التعلم، تقوم الشبكة بتعديل هذه القيم بشكل متكرر، بهدف تقليل الأخطاء بين المخرجات المتوقعة والمخرجات الفعلية التي تنتجها الشبكة. يتم ذلك من خلال استخدام خوارزميات رياضية متخصصة، مثل الانتشار الخلفي (Backpropagation)، التي تسمح للشبكة بتحديد التعديلات اللازمة في الأوزان لتقليل الأخطاء.
5.3 اكتمال التعلم
تعتبر عملية التعلم مكتملة عندما لا يؤدي فحص المزيد من البيانات إلى تحسن ملحوظ في أداء الشبكة. بمعنى آخر، عندما لا يعود تعديل الأوزان والتحيزات يؤدي إلى تقليل كبير في معدل الخطأ. ومع ذلك، من المهم ملاحظة أن معدل الخطأ لا يصل عادةً إلى الصفر حتى بعد انتهاء عملية التعلم، حيث يمكن أن يكون هناك بعض الأخطاء المتبقية. إذا كان معدل الخطأ مرتفعًا جدًا بعد التعلم، فقد يكون من الضروري إعادة تصميم الشبكة، أو تعديل معايير التعلم المستخدمة.
5.4 دالة التكلفة
تعتبر دالة التكلفة (Cost Function) أداة أساسية في عملية التعلم، حيث توفر مقياسًا كميًا لأداء الشبكة. يتم تقييم هذه الدالة بشكل دوري خلال عملية التعلم، ويستمر التعلم طالما أن قيمة دالة التكلفة في انخفاض. تحدد دالة التكلفة مدى جودة أداء الشبكة في مهمة معينة، وعادةً ما يتم تعريفها كمقياس إحصائي يمكن تقريبه. تتكون المخرجات الفعلية للشبكة من قيم عددية، وعندما يكون الخطأ منخفضًا، يكون الفرق بين المخرجات المتوقعة والمخرجات الفعلية صغيرًا. تهدف عملية التعلم إلى تقليل مجموع هذه الفروق عبر جميع الملاحظات.
5.5 معدل التعلم
يحدد معدل التعلم (Learning Rate) حجم الخطوات التصحيحية التي يتخذها النموذج لتعديل الأخطاء في كل ملاحظة. يؤثر معدل التعلم بشكل كبير على سرعة وفعالية عملية التعلم. فمعدل التعلم المرتفع يقلل من وقت التدريب، ولكنه قد يؤدي إلى انخفاض الدقة النهائية، بينما معدل التعلم المنخفض يستغرق وقتًا أطول، ولكنه قد يحقق دقة أعلى. تهدف عمليات التحسين مثل Quickprop إلى تسريع عملية تقليل الأخطاء، بينما تهدف تحسينات أخرى إلى زيادة موثوقية التعلم. لتجنب التذبذب داخل الشبكة وتحسين معدل التقارب، تستخدم بعض التحسينات معدل تعلم تكيفي يزيد أو ينقص حسب الحاجة.
5.6 دالة التكلفة (مزيد من التفصيل)
على الرغم من إمكانية تعريف دالة التكلفة بشكل مخصص، فإن الاختيار يعتمد غالبًا على الخصائص المرغوبة للدالة (مثل التحدب) أو لأنها تنشأ من النموذج (على سبيل المثال، في نموذج احتمالي، يمكن استخدام الاحتمال الخلفي للنموذج كتكلفة عكسية).
5.7 الانتشار الخلفي
الانتشار الخلفي (Backpropagation) هو طريقة تستخدم لتعديل أوزان الاتصال للتعويض عن كل خطأ يتم اكتشافه أثناء التعلم. يتم توزيع مقدار الخطأ بشكل فعال بين الاتصالات. من الناحية الفنية، يحسب الانتشار الخلفي تدرج (مشتق) دالة التكلفة المرتبطة بحالة معينة فيما يتعلق بالأوزان. يمكن إجراء تحديثات الوزن عبر التدرج العشوائي أو طرق أخرى مثل آلات التعلم المتطرفة، والشبكات “بلا انتشار”، والتدريب بدون التراجع، والشبكات “عديمة الوزن”، والشبكات العصبية غير الاتصالية.
5.8 نماذج التعلم
يمكن تصنيف التعلم الآلي إلى ثلاثة نماذج رئيسية: التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم بالتعزيز. كل نموذج يتوافق مع مهمة تعلم معينة.
5.8.1 التعلم الخاضع للإشراف
يستخدم التعلم الخاضع للإشراف مجموعة من المدخلات والمخرجات المرغوبة. تتمثل مهمة التعلم في إنتاج المخرجات المرغوبة لكل مدخل. في هذه الحالة، ترتبط دالة التكلفة بالقضاء على الاستنتاجات غير الصحيحة. التكلفة شائعة الاستخدام هي متوسط الخطأ التربيعي، والذي يحاول تقليل متوسط الخطأ التربيعي بين مخرجات الشبكة والمخرجات المرغوبة. المهام المناسبة للتعلم الخاضع للإشراف هي التعرف على الأنماط (المعروف أيضًا باسم التصنيف) والانحدار (المعروف أيضًا باسم تقريب الدالة). يمكن تطبيق التعلم الخاضع للإشراف أيضًا على البيانات المتسلسلة (على سبيل المثال، للتعرف على الكتابة اليدوية والكلام والإيماءات). يمكن اعتبار ذلك بمثابة التعلم مع “معلم”، في شكل دالة توفر ملاحظات مستمرة حول جودة الحلول التي تم الحصول عليها حتى الآن.
5.8.2 التعلم غير الخاضع للإشراف
في التعلم غير الخاضع للإشراف، يتم إعطاء بيانات الإدخال جنبًا إلى جنب مع دالة التكلفة، وهي دالة لبعض البيانات x ومخرجات الشبكة. تعتمد دالة التكلفة على المهمة (مجال النموذج) وأي افتراضات مسبقة (الخصائص الضمنية للنموذج ومعلماته والمتغيرات المرصودة). كمثال بسيط، ضع في اعتبارك النموذج f(x)=a حيث a ثابت والتكلفة C = E[(x-f(x))²]. ينتج عن تقليل هذه التكلفة قيمة لـ a تساوي متوسط البيانات. يمكن أن تكون دالة التكلفة أكثر تعقيدًا. يعتمد شكلها على التطبيق: على سبيل المثال، في الضغط يمكن أن يكون مرتبطًا بالمعلومات المتبادلة بين x و f(x)، بينما في النمذجة الإحصائية، يمكن أن يكون مرتبطًا بالاحتمال الخلفي للنموذج بالنظر إلى البيانات (لاحظ أنه في كلتا هاتين الحالتين ، سيتم تعظيم هذه الكميات بدلاً من تقليلها). المهام التي تقع ضمن نموذج التعلم غير الخاضع للإشراف هي بشكل عام مشاكل التقدير؛ وتشمل التطبيقات التجميع، وتقدير التوزيعات الإحصائية، والضغط، والتصفية.
5.8.3 التعلم بالتعزيز
في تطبيقات مثل لعب ألعاب الفيديو، يتخذ الممثل سلسلة من الإجراءات، ويتلقى استجابة غير متوقعة بشكل عام من البيئة بعد كل إجراء. الهدف هو الفوز باللعبة، أي توليد الاستجابات الأكثر إيجابية (أقل تكلفة). في التعلم بالتعزيز، يهدف إلى ترجيح الشبكة (ابتكار سياسة) لتنفيذ الإجراءات التي تقلل من التكلفة طويلة الأجل (التراكمية المتوقعة). في كل نقطة زمنية، يقوم الوكيل بإجراء وتولد البيئة ملاحظة وتكلفة فورية، وفقًا لبعض القواعد (عادةً غير المعروفة). عادة ما يمكن تقدير القواعد والتكلفة طويلة الأجل فقط. في أي مفترق طرق، يقرر الوكيل ما إذا كان سيستكشف إجراءات جديدة للكشف عن تكاليفها أو استغلال التعلم السابق للمضي قدمًا بسرعة أكبر.
من الناحية الرسمية، يتم نمذجة البيئة كعملية قرار ماركوف (MDP) مع الحالات s1, …, sn ∈ S والإجراءات a1, …, am ∈ A. نظرًا لأن انتقالات الحالة غير معروفة، يتم استخدام التوزيعات الاحتمالية بدلاً من ذلك: توزيع التكلفة الفورية P(ct|st) ، وتوزيع الملاحظة P(xt|st) وتوزيع الانتقال P(st+1|st, at)، بينما يتم تعريف السياسة على أنها التوزيع الشرطي للإجراءات بالنظر إلى الملاحظات. مجتمعة، يحدد الاثنان سلسلة ماركوف (MC). الهدف هو اكتشاف MC الأقل تكلفة.
تعمل الشبكات العصبية الاصطناعية كمكون تعليمي في مثل هذه التطبيقات. تم تطبيق البرمجة الديناميكية المقترنة مع الشبكات العصبية الاصطناعية (مما يمنح البرمجة العصبية الديناميكية) على مشاكل مثل تلك المتعلقة بتوجيه المركبات وألعاب الفيديو وإدارة الموارد الطبيعية والطب بسبب قدرة الشبكات العصبية الاصطناعية على التخفيف من خسائر الدقة حتى عند تقليل كثافة شبكة التقدير لحساب الحل العددي لمشاكل التحكم. المهام التي تقع ضمن نموذج التعلم بالتعزيز هي مشاكل التحكم والألعاب ومهام صنع القرار التسلسلي الأخرى.
5.8.4 التعلم الذاتي
تم تقديم التعلم الذاتي في الشبكات العصبية في عام 1982 جنبًا إلى جنب مع شبكة عصبية قادرة على التعلم الذاتي تسمى المصفوفة التكيفية المتقاطعة (CAA). إنه نظام بإدخال واحد فقط، وهو الحالة s، ومخرج واحد فقط، وهو الإجراء (أو السلوك) a. ليس لديها مدخل مشورة خارجي ولا مدخل تعزيز خارجي من البيئة. تحسب المصفوفة التكيفية المتقاطعة، بطريقة متقاطعة، كلاً من القرارات المتعلقة بالإجراءات والعواطف (المشاعر) حول المواقف التي تمت مواجهتها. يتم تحريك النظام من خلال التفاعل بين الإدراك والعاطفة. بالنظر إلى مصفوفة الذاكرة، W =||w(a,s)||، تقوم خوارزمية التعلم الذاتي المتقاطع في كل تكرار بالحساب التالي:
- في الموقف s قم بتنفيذ الإجراء a؛
- استقبل الموقف التبعي s’؛
- احسب عاطفة التواجد في الموقف التبعي v(s’)؛
- قم بتحديث ذاكرة المتقاطع w'(a,s) = w(a,s) + v(s’).
القيمة المنتشرة للخلف (التعزيز الثانوي) هي العاطفة تجاه الموقف التبعي. توجد المصفوفة التكيفية المتقاطعة في بيئتين، إحداهما بيئة سلوكية حيث تتصرف، والأخرى بيئة وراثية، حيث تتلقى منها في البداية ومرة واحدة فقط المشاعر الأولية حول المواقف التي ستواجهها في البيئة السلوكية. بعد استلام متجه الجينوم (متجه الأنواع) من البيئة الوراثية، ستتعلم المصفوفة التكيفية المتقاطعة سلوكًا يسعى إلى تحقيق الهدف، في البيئة السلوكية التي تحتوي على كل من المواقف المرغوبة وغير المرغوبة.
5.9 التطور العصبي
يمكن للتطور العصبي إنشاء طوبولوجيا وأوزان الشبكات العصبية باستخدام الحساب التطوري. إنه منافس لأساليب التدرج المتطورة. إحدى مزايا التطور العصبي هي أنه قد يكون أقل عرضة للوقوع في “المآزق”.
5.10 الشبكات العصبية العشوائية
الشبكات العصبية العشوائية التي نشأت من نماذج Sherrington-Kirkpatrick هي نوع من الشبكات العصبية الاصطناعية التي يتم بناؤها عن طريق إدخال اختلافات عشوائية في الشبكة، إما عن طريق إعطاء الخلايا العصبية الاصطناعية في الشبكة وظائف نقل عشوائية أو عن طريق إعطائها أوزانًا عشوائية. وهذا يجعلها أدوات مفيدة لمشاكل التحسين، لأن التقلبات العشوائية تساعد الشبكة على الهروب من الحد الأدنى المحلي. تُعرف الشبكات العصبية العشوائية التي يتم تدريبها باستخدام نهج بايزي بالشبكات العصبية بايزي.
5.11 خوارزميات التعلم الأخرى
في إطار بايزي، يتم اختيار توزيع على مجموعة النماذج المسموح بها لتقليل التكلفة. الطرق التطورية، وبرمجة التعبير الجيني، والتلدين المحاكي، والتوقع-التعظيم، والطرق غير البارامترية، وتحسين سرب الجسيمات هي خوارزميات تعليمية أخرى. التكرار المتقارب هو خوارزمية تعلم للشبكات العصبية لوحدة التحكم في التعبير المفصلي للمخ (CMAC).
الفصل 6
6. أنماط التعلم
في سياق الشبكات العصبية، يمثل التعلم العملية الأساسية التي تمكن هذه الشبكات من التكيف والتحسن في أداء المهام المختلفة. هناك نمطان رئيسيان للتعلم: التعلم العشوائي والتعلم الدفعي. يختلف هذان النمطان في كيفية معالجة بيانات التدريب وتحديث أوزان الشبكة، مما يؤثر على سرعة التعلم واستقراره وقدرة الشبكة على تجنب الوقوع في الحلول المثلى المحلية.
6.1. التعلم العشوائي (Stochastic Learning)
في التعلم العشوائي، يتم تحديث أوزان الشبكة بعد كل إدخال أو عينة تدريبية. بمعنى آخر، عند تقديم عينة جديدة للشبكة، يتم حساب الخطأ الناتج عن هذه العينة، ويتم تعديل أوزان الشبكة بناءً على هذا الخطأ. هذه العملية تتكرر لكل عينة تدريبية على حدة.
خصائص التعلم العشوائي:
التحديث الفوري: يتم تحديث الأوزان مباشرة بعد معالجة كل عينة، مما يتيح للشبكة التفاعل بسرعة مع البيانات الجديدة. الضوضاء: نظرًا لأن التحديث يعتمد على عينة واحدة فقط، فإن عملية التعلم قد تكون أكثر ضوضاءً أو تذبذبًا. هذا يعني أن التحديثات قد لا تكون دائمًا في الاتجاه الأمثل لتقليل الخطأ العام. تجنب الحلول المثلى المحلية: الضوضاء الناتجة عن التحديث الفوري يمكن أن تساعد الشبكة على الهروب من الحلول المثلى المحلية، وهي حلول تكون فيها دالة الخطأ منخفضة ولكنها ليست الأفضل على الإطلاق. أداء جيد مع البيانات الكبيرة: يعتبر التعلم العشوائي فعالًا بشكل خاص مع مجموعات البيانات الكبيرة، حيث يمكن تحديث الأوزان بسرعة بناءً على كل عينة بدلاً من الانتظار حتى معالجة مجموعة كاملة. التنوع: يحافظ التعلم العشوائي على تنوع عملية التعلم بسبب التحديث الفوري للأوزان لكل عينة، مما يمنع الشبكة من التخصص الزائد على جزء معين من البيانات. مثال: تخيل أنك تدرب شبكة عصبية لتصنيف صور القطط والكلاب. باستخدام التعلم العشوائي، ستقوم بتقديم صورة واحدة (إما قطة أو كلب) للشبكة، وحساب الخطأ الناتج، وتعديل الأوزان بناءً على هذا الخطأ. ثم ستقوم بتكرار هذه العملية لصورة أخرى، وهكذا.
6.2. التعلم الدفعي (Batch Learning)
في التعلم الدفعي، يتم تحديث أوزان الشبكة بناءً على مجموعة من الإدخالات أو العينات التدريبية، تُعرف بالدفعة (Batch). بدلاً من تحديث الأوزان بعد كل عينة، يتم تجميع الأخطاء الناتجة عن معالجة جميع العينات في الدفعة، ويتم حساب متوسط هذه الأخطاء، ثم يتم تعديل الأوزان بناءً على هذا المتوسط.
خصائص التعلم الدفعي:
التحديث الدوري: يتم تحديث الأوزان بعد معالجة كل دفعة من البيانات، مما يقلل من التذبذبات في عملية التعلم. الاستقرار: بما أن التحديث يعتمد على متوسط الأخطاء في الدفعة، فإن عملية التعلم تكون أكثر استقرارًا وأقل عرضة للضوضاء. التقارب السريع: يوفر التعلم الدفعي عادةً تقاربًا أسرع نحو الحل الأمثل المحلي مقارنة بالتعلم العشوائي، حيث يتم تحديث الأوزان في اتجاه متوسط الخطأ للدفع بأكملها. أقل فعالية مع البيانات الكبيرة: قد يكون التعلم الدفعي أقل كفاءة مع مجموعات البيانات الكبيرة، حيث يجب معالجة الدفعة بأكملها قبل تحديث الأوزان، مما قد يستغرق وقتًا طويلاً. الاستفادة من الحوسبة المتوازية: يتيح التعلم الدفعي إمكانية الاستفادة من الحوسبة المتوازية، حيث يمكن معالجة العينات في الدفعة بشكل متزامن. مثال: لنعد إلى مثال تصنيف القطط والكلاب. باستخدام التعلم الدفعي، ستقوم بتقديم مجموعة من الصور (مثلاً 32 صورة) للشبكة، وحساب متوسط الخطأ الناتج عن هذه الصور، ثم تعديل الأوزان بناءً على هذا المتوسط. ثم ستقوم بتكرار هذه العملية لدفعات أخرى من الصور.
6.3. حل وسط: الدفعات المصغرة (Mini-Batches)
يجمع مفهوم الدفعات المصغرة بين مزايا كل من التعلم العشوائي والدفعي. في هذه الطريقة، يتم تقسيم البيانات التدريبية إلى دفعات صغيرة، ويتم تحديث الأوزان بعد معالجة كل دفعة مصغرة. هذا النهج يسمح بتحديثات متكررة مع الحفاظ على بعض الاستقرار، ويساعد على تجنب الوقوع في الحلول المثلى المحلية مع توفير كفاءة أكبر عند معالجة البيانات الكبيرة. تُعتبر الدفعات المصغرة الآن الأكثر شيوعًا في تدريب الشبكات العصبية.
6.4. العلاقة مع الفصول السابقة
يرتبط هذا الفصل ارتباطًا وثيقًا بالفصل السابق حول “التعلم في الشبكات العصبية” حيث تم تقديم المفاهيم الأساسية للتعلم وكيفية تعديل الأوزان. هنا، نقوم بتفصيل كيفية تنفيذ هذا التعلم عمليًا من خلال تقديم نمطين مختلفين (العشوائي والدفعي) والطريقة الهجينة (الدفعات المصغرة). فهم هذه الأنماط يساعد في اختيار الطريقة المناسبة لتدريب الشبكة بناءً على حجم البيانات ومتطلبات التطبيق. كما أن هذا الفصل يمهد للفصل القادم الذي سيتناول أنواع الشبكات العصبية وكيفية اختلافها في الهيكل والوظيفة.
6.5. أهمية فهم أنماط التعلم
فهم أنماط التعلم المختلفة أمر بالغ الأهمية لتصميم وتدريب الشبكات العصبية بشكل فعال. يؤثر اختيار نمط التعلم على سرعة التدريب، واستقرار النتائج، وقدرة الشبكة على التعميم. لذلك، يجب على الممارسين مراعاة خصائص البيانات والتطبيق عند اختيار نمط التعلم المناسب.
الفصل 7 الفصل السابع: أنواع الشبكات العصبية تطورت الشبكات العصبية الاصطناعية إلى عائلة واسعة من التقنيات التي أدت إلى تقدم كبير في مجالات متعددة. يمكن تصنيف هذه الشبكات إلى أنواع مختلفة بناءً على خصائصها، بدءًا من بنيتها وصولًا إلى طريقة عملها. بشكل عام، يمكن تقسيم الشبكات العصبية إلى نوعين رئيسيين: الشبكات الثابتة والشبكات الديناميكية.
7.1 الشبكات الثابتة والديناميكية: الشبكات الثابتة: في هذا النوع من الشبكات، تكون بعض المكونات مثل عدد الوحدات (الخلايا العصبية)، عدد الطبقات، أوزان الوحدات، والهيكل (Topology) ثابتة وغير قابلة للتغيير بعد تصميم الشبكة. هذه الشبكات تكون أبسط في التصميم والتنفيذ، ولكنها قد تكون أقل مرونة في التكيف مع البيانات الجديدة أو المتغيرة. الشبكات الديناميكية: في المقابل، تسمح الشبكات الديناميكية بواحد أو أكثر من هذه المكونات بالتطور والتغير من خلال عملية التعلم. يمكن أن يتضمن ذلك تعديل عدد الخلايا العصبية، تغيير عدد الطبقات، أو تعديل الأوزان والهيكل بناءً على البيانات التي يتم تدريب الشبكة عليها. على الرغم من أن هذا النوع من الشبكات أكثر تعقيدًا، إلا أنه يمكن أن يؤدي إلى تحسين الأداء وتقليل وقت التدريب. 7.2 الشبكات الخاضعة للإشراف والمستقلة: الشبكات الخاضعة للإشراف: تتطلب هذه الشبكات تدخلًا من المشغل (المستخدم) لتحديد الأهداف وتوفير البيانات المصنفة (التي تحتوي على الإجابات الصحيحة). تُستخدم هذه الشبكات بشكل أساسي في مهام التصنيف والانحدار، حيث يكون الهدف هو تعلم العلاقة بين المدخلات والمخرجات المعروفة. الشبكات المستقلة: تعمل هذه الشبكات بشكل مستقل ولا تتطلب تدخلًا مباشرًا من المشغل. تُستخدم في مهام التعلم غير الخاضع للإشراف، مثل تجميع البيانات وتقليل الأبعاد، حيث يكون الهدف هو اكتشاف الأنماط المخفية في البيانات. 7.3 الشبكات المبنية على الأجهزة والبرامج: الشبكات المبنية على الأجهزة: تعمل هذه الشبكات بشكل مباشر على الأجهزة الإلكترونية المصممة خصيصًا لهذا الغرض. تستخدم هذه الشبكات الدوائر الإلكترونية لتنفيذ العمليات الحسابية اللازمة لتشغيل الشبكة العصبية، مما يؤدي إلى زيادة سرعة المعالجة وكفاءة استهلاك الطاقة. الشبكات المبنية على البرامج: تعمل هذه الشبكات على أجهزة الكمبيوتر ذات الأغراض العامة باستخدام لغات البرمجة المختلفة. توفر هذه الشبكات مرونة أكبر في التصميم والتنفيذ، ولكنها قد تكون أقل كفاءة من حيث السرعة واستهلاك الطاقة مقارنة بالشبكات المبنية على الأجهزة. 7.4 أنواع الشبكات الرئيسية: بالإضافة إلى التصنيفات المذكورة أعلاه، هناك أنواع رئيسية من الشبكات العصبية التي أثبتت فعاليتها في تطبيقات مختلفة:
7.4.1 الشبكات التلافيفية (Convolutional Neural Networks – CNNs): تعتبر الشبكات التلافيفية ناجحة بشكل خاص في معالجة البيانات المرئية وثنائية الأبعاد، مثل الصور والفيديو. تستخدم طبقات تلافيفية لاستخراج الميزات الهامة من البيانات المدخلة، مما يجعلها قوية في التعرف على الأنماط المعقدة. تتضمن الشبكات التلافيفية طبقات تجميع لتقليل حجم البيانات والحفاظ على الميزات الهامة. تستخدم على نطاق واسع في تطبيقات مثل التعرف على الوجوه، وتصنيف الصور، وكشف الأجسام. كما تمتد تطبيقاتها لتشمل معالجة البيانات النصية والصوتية عبر استخدام عمليات تلافيفية في بُعد واحد. 7.4.2 الذاكرة طويلة المدى القصيرة (Long Short-Term Memory – LSTM): تعتبر LSTM نوعًا من الشبكات العصبية المتكررة (Recurrent Neural Networks – RNNs) التي تم تصميمها للتغلب على مشكلة تلاشي التدرج (vanishing gradient problem)، وهي مشكلة شائعة في الشبكات المتكررة التقليدية. تستخدم الخلايا العصبية الخاصة بالـ LSTM “بوابات” للتحكم في تدفق المعلومات عبر الزمن، مما يسمح لها بتذكر المعلومات الهامة لفترات طويلة. تعتبر LSTM فعالة في معالجة الإشارات التي تحتوي على مزيج من المكونات ذات الترددات المنخفضة والعالية. تستخدم على نطاق واسع في تطبيقات مثل التعرف على الكلام ذي المفردات الكبيرة، وتوليف الكلام، وإنشاء رؤوس متحركة واقعية. تعتبر مفيدة في التطبيقات التي تعتمد على فهم السياق والتسلسلات الزمنية. 7.4.3 الشبكات التنافسية: تعتمد الشبكات التنافسية على فكرة وجود شبكات متعددة تتنافس مع بعضها البعض لتحقيق هدف معين. أحد الأمثلة الشائعة على الشبكات التنافسية هي الشبكات التوليدية الخصومية (Generative Adversarial Networks – GANs)، التي تتكون من شبكتين: شبكة مولدة وشبكة مميزة. تقوم الشبكة المولد بإنشاء عينات جديدة من البيانات، بينما تقوم الشبكة المميزة بتقييم مدى واقعية هذه العينات. يتم تدريب الشبكتين بشكل تنافسي، مما يؤدي إلى تحسين قدرة الشبكة المولد على إنشاء بيانات واقعية. تُستخدم الشبكات التنافسية في تطبيقات مثل إنشاء الصور والفيديوهات، وتحسين جودة الصور، وتوليد الموسيقى. كما أنها تستخدم في مجال الألعاب لجعل الذكاء الاصطناعي أكثر تحديًا. يُعد فهم أنواع الشبكات العصبية المختلفة أمرًا ضروريًا لاختيار النموذج المناسب لتطبيق معين. كل نوع من هذه الشبكات له نقاط قوة وضعف، ويجب على المصمم أن يوازن بين هذه العوامل عند اختيار الشبكة المناسبة. في الفصول اللاحقة، سيتم استكشاف هذه الأنواع بشكل أكثر تفصيلاً، بما في ذلك تصميمها، وخوارزميات التدريب الخاصة بها، وتطبيقاتها المختلفة.
الفصل 8 الفصل الثامن: تصميم الشبكة العصبية يعد تصميم الشبكة العصبية خطوة حاسمة في عملية بناء نموذج تعلم آلي فعال. يتضمن هذا التصميم اتخاذ قرارات بشأن عدة جوانب رئيسية، بدءًا من اختيار النموذج المناسب وصولًا إلى تحديد المعلمات الفائقة. يتطلب الأمر فهمًا جيدًا لخصائص الشبكات العصبية وكيفية تأثير هذه الخيارات على الأداء النهائي.
8.1. اختيار النموذج يعتمد اختيار النموذج المناسب بشكل كبير على طبيعة البيانات التي سيتم معالجتها والتطبيق المحدد. تتنوع نماذج الشبكات العصبية بشكل كبير، ولكل منها نقاط قوة وضعف. يجب أن تتضمن هذه المرحلة تحديد عدد الطبقات، وأنواعها (تلافيفية، متكررة، إلخ.)، وكيفية اتصال هذه الطبقات ببعضها البعض. على سبيل المثال، تستخدم الشبكات العصبية التلافيفية (CNNs) بشكل شائع في معالجة الصور، بينما تعتبر الشبكات العصبية المتكررة (RNNs) مناسبة للبيانات التسلسلية مثل النصوص أو الصوت. بالإضافة إلى ذلك، يجب تحديد عدد الوحدات العصبية في كل طبقة ونوع الاتصالات بين الطبقات، مثل الاتصال الكامل أو التجميع (pooling). يجب أن يؤخذ في الاعتبار أن النماذج المعقدة للغاية قد تكون بطيئة في التعلم وتتطلب موارد حاسوبية كبيرة، بينما قد لا تكون النماذج البسيطة كافية لالتقاط العلاقات المعقدة في البيانات.
8.2. خوارزمية التعلم توجد العديد من خوارزميات التعلم التي يمكن استخدامها لتدريب الشبكة العصبية. كل خوارزمية لها مزايا وعيوب، ويعتمد اختيار الخوارزمية المناسبة على عوامل مثل حجم البيانات، وتعقيد النموذج، والموارد المتاحة. تشمل الخوارزميات الشائعة:
خوارزمية الانتشار الخلفي (Backpropagation): تستخدم لحساب تدرجات دالة التكلفة بالنسبة لأوزان الشبكة، وتعديل الأوزان في الاتجاه الذي يقلل الخطأ. خوارزمية التدرج العشوائي (Stochastic Gradient Descent): نسخة معدلة من الانتشار الخلفي تستخدم لتحديث الأوزان بشكل تكراري باستخدام دفعات صغيرة من البيانات. خوارزميات التحسين المتطورة: مثل Adam، وRMSprop، وAdagrad، التي تستخدم معدلات تعلم تكيفية لتحسين عملية التدريب. يجب ملاحظة أنه لا يوجد خوارزمية واحدة هي الأفضل في جميع الحالات. غالبًا ما يتطلب الأمر تجربة عدة خوارزميات لتقييم أيها الأفضل لمجموعة بيانات معينة.
8.3. المتانة تعتبر متانة الشبكة العصبية أحد الجوانب الهامة في تصميمها. تشير المتانة إلى قدرة الشبكة على الأداء الجيد في ظل ظروف متنوعة، بما في ذلك البيانات الجديدة أو المشوشة. يمكن تحقيق المتانة عن طريق اختيار النموذج المناسب، وتحديد دالة تكلفة مناسبة، واستخدام خوارزمية تعلم فعالة. بالإضافة إلى ذلك، يمكن استخدام تقنيات مثل التسوية (regularization) لمنع الإفراط في التدريب (overfitting) وتحسين قدرة النموذج على التعميم.
8.4. البحث عن العمارة العصبية (NAS) يعتبر البحث عن العمارة العصبية (NAS) طريقة آلية لتصميم الشبكات العصبية. تستخدم هذه الطريقة التعلم الآلي لاكتشاف تصميمات شبكات تحقق أداءً عاليًا. تتضمن عملية NAS عادةً اقتراح نموذج مرشح، وتقييمه على مجموعة بيانات، واستخدام النتائج كتعليقات لتدريب شبكة NAS. يمكن أن تساعد هذه العملية في اكتشاف تصميمات شبكات عصبية تتفوق على التصميمات اليدوية، مما يقلل الجهد والوقت اللازمين لتصميم الشبكات. تشمل الأنظمة المتاحة لـ NAS AutoML وAutoKeras.
8.5. المعلمات الفائقة المعلمات الفائقة هي قيم ثابتة يتم تحديدها قبل بدء عملية التعلم. هذه المعلمات لا يتم تعلمها من البيانات، ولكنها تؤثر بشكل كبير على أداء النموذج. تشمل أمثلة المعلمات الفائقة:
معدل التعلم: يحدد حجم الخطوات التي تتخذها الخوارزمية لتعديل الأوزان. عدد الطبقات المخفية: يحدد عمق الشبكة. حجم الدفعة (batch size): يحدد عدد الأمثلة التي يتم استخدامها لتحديث الأوزان في كل مرة. عدد الوحدات في كل طبقة: يؤثر على قدرة النموذج على التعلم. معاملات التسوية (regularization parameters): تتحكم في قوة التسوية. دالة التنشيط (activation function): تحدد سلوك الوحدات العصبية. معدل التوقف (dropout rate): يستخدم لمنع الإفراط في التدريب. الخطوة (step) والمسافة (stride) والتوسيع (padding) في الشبكات التلافيفية: تؤثر على كيفية معالجة البيانات. يتطلب تحديد القيم المناسبة للمعلمات الفائقة غالبًا تجربة وتعديلًا يدويًا، ولكن يمكن أيضًا استخدام تقنيات مثل البحث الشبكي (grid search) أو التحسين البايزي (Bayesian optimization) لتحديد القيم المثلى.
8.6. مثال على وظيفة التدريب في بايثون يوضح مثال الشفرة التالي، المكتوب بلغة بايثون، وظيفة تدريب بسيطة لشبكة عصبية. هذا المثال يوضح كيفية استخدام البيانات التدريبية، وعدد الوحدات المخفية، ومعدل التعلم، وعدد التكرارات كمدخلات للتدريب، وكيف يتم تحديث الأوزان والتحيزات خلال عملية التدريب:
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
def sigmoid_derivative(x):
return sigmoid(x) (1 - sigmoid(x))
def train(X, y, n_hidden, learning_rate, n_iter):
m, n_input = X.shape
# 1. تهيئة الأوزان والتحيزات عشوائيًا
w1 = np.random.randn(n_input, n_hidden)
b1 = np.zeros((1, n_hidden))
w2 = np.random.randn(n_hidden, 1)
b2 = np.zeros((1, 1))
# 2. في كل تكرار، قم بتغذية جميع الطبقات بالأوزان والتحيزات الأحدث
for i in range(n_iter + 1):
z2 = np.dot(X, w1) + b1
a2 = sigmoid(z2)
z3 = np.dot(a2, w2) + b2
a3 = z3
dz3 = a3 - y
dw2 = np.dot(a2.T, dz3)
db2 = np.sum(dz3, axis=0, keepdims=True)
dz2 = np.dot(dz3, w2.T) sigmoid_derivative(z2)
dw1 = np.dot(X.T, dz2)
db1 = np.sum(dz2, axis=0)
# 3. تحديث الأوزان والتحيزات باستخدام التدرجات
w1 -= learning_rate dw1 / m
w2 -= learning_rate dw2 / m
b1 -= learning_rate db1 / m
b2 -= learning_rate db2 / m
if i % 1000 == 0:
print("Epoch", i, "loss: ", np.mean(np.square(dz3)))
model = {"w1": w1, "b1": b1, "w2": w2, "b2": b2}
return model
هذا المثال يوضح عملية التدريب الأساسية، ويمكن تعديله وتوسيعه ليشمل أنواعًا أخرى من الشبكات العصبية وخوارزميات التدريب.
في الختام، يتطلب تصميم الشبكة العصبية فهمًا عميقًا للمفاهيم الأساسية، بالإضافة إلى الخبرة العملية لتحديد الخيارات المناسبة لكل تطبيق. من خلال النظر بعناية في كل هذه الجوانب، يمكن بناء شبكات عصبية قوية وفعالة قادرة على حل مجموعة واسعة من المشاكل.
الفصل 9
9. تطبيقات الشبكات العصبية
بفضل قدرتها على استنساخ النماذج غير الخطية وتمثيلها، وجدت الشبكات العصبية الاصطناعية (ANNs) تطبيقات واسعة في مختلف التخصصات. فيما يلي تفصيل لأهم هذه التطبيقات:
9.1. تقريب الدالة، أو تحليل الانحدار: التنبؤ بالسلاسل الزمنية: تستخدم الشبكات العصبية للتنبؤ بالقيم المستقبلية بناءً على بيانات السلاسل الزمنية السابقة، مثل أسعار الأسهم، وحركة المرور، والطقس. تقريب اللياقة البدنية: في مجال علوم الحاسوب والتطور الخوارزمي، يمكن استخدام الشبكات العصبية لتقريب دالة اللياقة البدنية في الخوارزميات التطورية، مما يساعد على تسريع عملية البحث عن الحلول المثلى. النمذجة: تستخدم الشبكات العصبية لنمذجة العلاقات المعقدة بين المتغيرات المختلفة، مما يسمح بإنشاء نماذج رياضية تعبر بدقة عن الظواهر الفيزيائية أو الاقتصادية أو الاجتماعية. 9.2. معالجة البيانات: الترشيح: تستخدم الشبكات العصبية لتصفية الضوضاء من الإشارات والبيانات، مما يساعد على تحسين جودة البيانات المدخلة للأنظمة المختلفة. التجميع: تساعد الشبكات العصبية في تجميع البيانات المتشابهة معًا، مما يسهل عملية تحليل البيانات واستخراج الأنماط والمعلومات الهامة منها. فصل المصادر العمياء: تستخدم الشبكات العصبية لفصل الإشارات المختلطة إلى مصادرها الأصلية، دون معرفة مسبقة بمصادر الإشارات. هذا التطبيق مهم في معالجة الصوت والصورة. الضغط: يمكن استخدام الشبكات العصبية لضغط البيانات وتقليل حجمها مع الحفاظ على جودتها، مما يتيح تخزين وإرسال البيانات بكفاءة أكبر. 9.3. تحديد الأنظمة غير الخطية والتحكم بها: التحكم في المركبات: تستخدم الشبكات العصبية للتحكم في حركة المركبات، مثل السيارات ذاتية القيادة والطائرات بدون طيار، من خلال معالجة البيانات الحسية واتخاذ القرارات المناسبة في الوقت الفعلي. التنبؤ بالمسارات: يمكن استخدام الشبكات العصبية للتنبؤ بمسارات الأجسام المتحركة، مما يساعد على تجنب الاصطدامات وتحسين كفاءة أنظمة الملاحة. التحكم التكيفي: تستخدم الشبكات العصبية لتصميم أنظمة تحكم تتكيف مع الظروف المتغيرة، مما يتيح التحكم الفعال في العمليات الصناعية المعقدة. التحكم في العمليات: تستخدم الشبكات العصبية للتحكم في العمليات الصناعية المختلفة، مثل عمليات الإنتاج والتصنيع، مما يساعد على تحسين الجودة وتقليل التكاليف. إدارة الموارد الطبيعية: يمكن استخدام الشبكات العصبية لنمذجة وإدارة الموارد الطبيعية، مثل إدارة المياه والغابات، مما يساعد على تحقيق التنمية المستدامة. 9.4. التعرف على الأنماط: أنظمة الرادار: تستخدم الشبكات العصبية في أنظمة الرادار لتحليل الإشارات والكشف عن الأهداف وتحديد أنواعها. التعرف على الوجوه: تستخدم الشبكات العصبية للتعرف على الوجوه وتحديد الهويات، مما يتيح استخدامها في أنظمة الأمان والتحقق من الهوية. تصنيف الإشارات: يمكن استخدام الشبكات العصبية لتصنيف أنواع مختلفة من الإشارات، مثل إشارات الصوت والكلام والإشارات الطبية. اكتشاف التغييرات: تستخدم الشبكات العصبية لاكتشاف التغييرات والأنماط غير المعتادة في البيانات، مما يتيح اكتشاف الاحتيال والأعطال والأخطاء. إعادة البناء ثلاثية الأبعاد: يمكن استخدام الشبكات العصبية لإعادة بناء الأجسام ثلاثية الأبعاد من الصور أو البيانات ثنائية الأبعاد، مما يتيح استخدامها في التصوير الطبي والروبوتات. التعرف على الأجسام: تستخدم الشبكات العصبية للتعرف على الأجسام المختلفة في الصور والفيديو، مما يتيح استخدامها في أنظمة المراقبة والقيادة الذاتية. اتخاذ القرارات المتسلسلة: يمكن استخدام الشبكات العصبية لاتخاذ القرارات المتسلسلة بناءً على البيانات الحالية والسابقة، مما يتيح استخدامها في الألعاب والروبوتات. 9.5. التعرف على التسلسلات: التعرف على الإيماءات: تستخدم الشبكات العصبية للتعرف على الإيماءات وحركات الجسم، مما يتيح التفاعل مع الأجهزة والأنظمة المختلفة بشكل طبيعي. التعرف على الكلام: تستخدم الشبكات العصبية لتحويل الإشارات الصوتية إلى نصوص مكتوبة، مما يتيح تطوير أنظمة التعرف على الكلام ومساعدين الصوت. التعرف على النصوص المكتوبة والمطبوعة: يمكن استخدام الشبكات العصبية للتعرف على النصوص المكتوبة بخط اليد أو المطبوعة، مما يتيح تحويل النصوص المكتوبة إلى صيغ رقمية. 9.6. تحليل بيانات المستشعرات: تحليل الصور: تستخدم الشبكات العصبية لتحليل الصور واستخراج المعلومات الهامة منها، مثل الكشف عن الأجسام وتحديد الألوان والأنماط. تحليل البيانات الحسية: يمكن استخدام الشبكات العصبية لتحليل البيانات الحسية المختلفة، مثل بيانات درجة الحرارة والرطوبة والضغط، مما يتيح مراقبة البيئة والأنظمة المختلفة. 9.7. الروبوتات: توجيه الروبوتات: تستخدم الشبكات العصبية لتوجيه حركة الروبوتات، مما يتيح لها التنقل في البيئات المختلفة وإنجاز المهام المعقدة. التحكم في الأطراف الصناعية: يمكن استخدام الشبكات العصبية للتحكم في حركة الأطراف الصناعية، مما يتيح للأشخاص ذوي الإعاقة الحركة بشكل طبيعي. 9.8. التنقيب في البيانات: اكتشاف المعرفة في قواعد البيانات: تستخدم الشبكات العصبية لاكتشاف الأنماط والمعلومات الهامة في قواعد البيانات الكبيرة، مما يتيح اتخاذ القرارات بناءً على رؤى مستنيرة. 9.9. التمويل: نماذج التنبؤ المالي: تستخدم الشبكات العصبية لإنشاء نماذج تتنبأ بالأسواق المالية على المدى الطويل، مما يساعد المستثمرين في اتخاذ قرارات استثمارية مستنيرة. الأسواق المالية الاصطناعية: يمكن استخدام الشبكات العصبية لمحاكاة الأسواق المالية، مما يتيح دراسة سلوك السوق وتأثير الأحداث المختلفة عليه. 9.10. الكيمياء الكمومية: محاكاة خصائص الجزيئات: تستخدم الشبكات العصبية لنمذجة ومحاكاة خصائص الجزيئات والمواد، مما يتيح اكتشاف مواد جديدة وتصميم جزيئات ذات خصائص محددة. 9.11. ألعاب الذكاء الاصطناعي: تطوير الذكاء الاصطناعي للألعاب: تستخدم الشبكات العصبية لتطوير الذكاء الاصطناعي للألعاب، مما يتيح تطوير شخصيات غير قابلة للعب (NPCs) ذكية وقادرة على اتخاذ القرارات والتفاعل مع اللاعبين بشكل واقعي. 9.12. الذكاء الاصطناعي التوليدي: إنشاء محتوى جديد: تستخدم الشبكات العصبية التوليدية لإنشاء محتوى جديد، مثل الصور والنصوص والموسيقى، بناءً على أنماط التعلم من البيانات الموجودة. 9.13. تصور البيانات: تمثيل البيانات بشكل مرئي: يمكن استخدام الشبكات العصبية لتمثيل البيانات المعقدة بشكل مرئي، مما يسهل فهمها وتحليلها. 9.14. الترجمة الآلية: ترجمة النصوص بين اللغات: تستخدم الشبكات العصبية لترجمة النصوص بين اللغات المختلفة، مما يتيح التواصل بين الأشخاص من مختلف الثقافات. 9.15. تصفية الشبكات الاجتماعية: فلترة المحتوى: تستخدم الشبكات العصبية لتصفية المحتوى غير المرغوب فيه على الشبكات الاجتماعية، مثل المحتوى المسيء والتحرشي. 9.16. تصفية الرسائل غير المرغوب فيها: الكشف عن الرسائل غير المرغوب فيها: تستخدم الشبكات العصبية للكشف عن الرسائل غير المرغوب فيها (البريد العشوائي)، مما يحافظ على صندوق البريد نظيفًا وخاليًا من الرسائل المزعجة. 9.17. التشخيص الطبي: تشخيص الأمراض: تستخدم الشبكات العصبية لتحليل الصور الطبية وتشخيص الأمراض المختلفة، مثل السرطان وأمراض القلب، مما يساعد الأطباء في اتخاذ قرارات علاجية سريعة ودقيقة. التمييز بين الخلايا السرطانية: يمكن استخدام الشبكات العصبية للتمييز بين الخلايا السرطانية شديدة الغزو والخلايا الأقل غزوًا، بناءً على معلومات شكل الخلية فقط، مما يساعد في تحديد مدى خطورة السرطان وخيارات العلاج المناسبة. 9.18. تطبيقات أخرى: تحليل موثوقية البنية التحتية: تستخدم الشبكات العصبية لتقييم موثوقية البنية التحتية المعرضة للكوارث الطبيعية، مثل الزلازل والفيضانات، مما يتيح اتخاذ التدابير اللازمة لتقليل الأضرار والخسائر. التنبؤ بترسبات الأساسات: يمكن استخدام الشبكات العصبية للتنبؤ بترسبات الأساسات في المباني والمنشآت الهندسية، مما يساعد في تصميم هياكل أكثر متانة وقدرة على تحمل الأحمال. نمذجة جريان الأمطار: تستخدم الشبكات العصبية لنمذجة جريان الأمطار والتنبؤ بالفيضانات، مما يساعد في إدارة الموارد المائية وتقليل الأضرار الناجمة عن الفيضانات. تطبيقات علوم الأرض: يمكن استخدام الشبكات العصبية في مختلف تطبيقات علوم الأرض، مثل الهيدرولوجيا ونمذجة المحيطات والهندسة الساحلية وعلم التضاريس، مما يساعد في فهم الظواهر الطبيعية والتنبؤ بها. الأمن السيبراني: تستخدم الشبكات العصبية للكشف عن الأنشطة الخبيثة على الشبكات والأنظمة، مما يساعد في الحفاظ على أمن البيانات والأنظمة. حل المعادلات التفاضلية الجزئية في الفيزياء: يمكن استخدام الشبكات العصبية لحل المعادلات التفاضلية الجزئية التي تصف الظواهر الفيزيائية المختلفة، مما يتيح فهم أعمق لهذه الظواهر وتطوير نماذج دقيقة لها. محاكاة خصائص الأنظمة الكمومية المفتوحة: تستخدم الشبكات العصبية لمحاكاة خصائص الأنظمة الكمومية المفتوحة، مما يساعد في تطوير تكنولوجيا الكم. أبحاث الدماغ: تستخدم الشبكات العصبية لدراسة سلوك الخلايا العصبية الفردية، وديناميكية الدوائر العصبية، وكيفية ظهور السلوك من الوحدات العصبية المجردة، مما يتيح فهم أعمق لعمل الدماغ البشري. إنشاء ملف تعريف اهتمامات المستخدم من الصور: يمكن استخدام الشبكات العصبية التي تم تدريبها للتعرف على الأجسام لإنشاء ملف تعريف اهتمامات المستخدم بناءً على الصور التي يشاهدها. علوم المواد (Graph Neural Networks – GNNs): تظهر الشبكات العصبية الرسومية قدرة كبيرة في توسيع نطاق التعلم العميق لاكتشاف مواد مستقرة جديدة من خلال التنبؤ الفعال بالطاقة الكلية للبلورات، مما يوضح قابلية الشبكات العصبية للتكيف وتطبيقها في حل المشكلات المعقدة في مختلف التخصصات العلمية. هذه مجرد أمثلة قليلة من التطبيقات العديدة للشبكات العصبية الاصطناعية، ولا تزال هذه التقنية تتطور بسرعة وتفتح آفاقًا جديدة في مختلف المجالات.
الفصل 10
الفصل العاشر: الخصائص النظرية للشبكات العصبية
10.1. القوة الحسابية
تعتبر الشبكة العصبية متعددة الطبقات (Multilayer Perceptron) مُقَرِّبًا عامًا للدوال (Universal Function Approximator)، وهذا ما تثبته نظرية التقريب العام (Universal Approximation Theorem). ومع ذلك، فإن هذا الإثبات لا يُقدم بشكل بناء عدد الخلايا العصبية المطلوبة، أو طوبولوجيا الشبكة، أو الأوزان، أو معلمات التعلم. بمعنى آخر، النظرية تؤكد إمكانية التقريب، لكنها لا تقدم وصفة لكيفية تحقيق ذلك عمليًا.
على صعيد آخر، تمتلك بنية متكررة (Recurrent Architecture) محددة بأوزان ذات قيم منطقية (Rational-Valued Weights) – وليس أوزان ذات قيم حقيقية دقيقة بالكامل – قوة آلة تورينج العالمية (Universal Turing Machine). هذا يعني أن هذه الشبكة قادرة نظريًا على محاكاة أي عملية حسابية قابلة للحوسبة. يتطلب هذا عددًا محدودًا من الخلايا العصبية ووصلات خطية قياسية. علاوة على ذلك، فإن استخدام قيم غير منطقية للأوزان ينتج آلة ذات قوة فائقة لتورينج (Super-Turing Power)، مما يشير إلى قدرات حسابية تتجاوز ما يمكن لآلة تورينج القياسية تحقيقه.
10.2. القدرة
تُشير خاصية “القدرة” (Capacity) للنموذج إلى قدرته على نمذجة أي دالة معينة. وهي مرتبطة بكمية المعلومات التي يمكن تخزينها في الشبكة، وإلى مفهوم التعقيد. هناك مفهومان للقدرة معروفان في الأوساط الأكاديمية: القدرة المعلوماتية (Information Capacity) وبُعد VC (VC Dimension).
القدرة المعلوماتية: تُناقش القدرة المعلوماتية للبيرسيبترون بشكل مكثف في كتاب السير ديفيد ماكاي، والذي يلخص أعمال توماس كوفر. يتم اشتقاق قدرة الشبكة المكونة من خلايا عصبية قياسية (غير تلافيفية) من خلال أربعة قواعد، تنبع من فهم الخلية العصبية كعنصر كهربائي. تلتقط القدرة المعلوماتية الدوال التي يمكن للشبكة نمذجتها بالنظر إلى أي بيانات كمدخلات. بُعد VC: يستخدم بُعد VC مبادئ نظرية القياس ويجد الحد الأقصى للقدرة في أفضل الظروف الممكنة، أي عند إعطاء بيانات الإدخال بشكل محدد. كما هو مذكور في كتاب ماكاي، فإن بُعد VC للمدخلات العشوائية هو نصف القدرة المعلوماتية للبيرسيبترون. يُشار أحيانًا إلى بُعد VC للنقاط العشوائية باسم سعة الذاكرة (Memory Capacity).
10.3. التقارب
قد لا تتقارب النماذج باستمرار على حل واحد لعدة أسباب. أولاً، قد توجد نقاط دنيا محلية (Local Minima) اعتمادًا على دالة التكلفة والنموذج. ثانيًا، قد لا تضمن طريقة التحسين المستخدمة التقارب عندما تبدأ بعيدًا عن أي نقطة دنيا محلية. ثالثًا، بالنسبة للبيانات أو المعلمات الكبيرة بما يكفي، تصبح بعض الطرق غير عملية.
هناك قضية أخرى جديرة بالذكر وهي أن التدريب قد يتجاوز بعض النقاط السرجية (Saddle Point)، مما قد يؤدي إلى تقارب في الاتجاه الخاطئ.
يُفهم سلوك التقارب لأنواع معينة من معماريات الشبكات العصبية بشكل أفضل من غيرها. عندما يقترب عرض الشبكة من اللانهاية، يتم وصف الشبكة العصبية جيدًا بواسطة توسع تايلور من الدرجة الأولى طوال فترة التدريب، وبالتالي فإنها ترث سلوك التقارب للنماذج الخطية. مثال آخر هو عندما تكون المعلمات صغيرة، يُلاحظ أن الشبكات العصبية غالبًا ما تتناسب مع الدوال المستهدفة من الترددات المنخفضة إلى العالية. يُشار إلى هذا السلوك باسم التحيز الطيفي (Spectral Bias) أو مبدأ التردد (Frequency Principle) للشبكات العصبية. هذه الظاهرة هي عكس سلوك بعض المخططات العددية التكرارية المدروسة جيدًا مثل طريقة جاكوبي. لوحظ أن الشبكات العصبية الأعمق أكثر تحيزًا نحو الدوال ذات التردد المنخفض.
10.4. التعميم والإحصاء
تواجه التطبيقات التي يهدف هدفها إلى إنشاء نظام يعمم جيدًا على الأمثلة غير المرئية، إمكانية التدريب الزائد (Over-training). يحدث هذا في الأنظمة المعقدة أو ذات المواصفات الزائدة عندما تتجاوز سعة الشبكة بشكل كبير المعلمات الحرة المطلوبة. هناك نهجان لمعالجة التدريب الزائد. الأول هو استخدام التحقق المتبادل (Cross-validation) والتقنيات المماثلة للتحقق من وجود التدريب الزائد وتحديد المعلمات الفائقة لتقليل خطأ التعميم.
النهج الثاني هو استخدام شكل من أشكال التنظيم (Regularization). يظهر هذا المفهوم في إطار احتمالي (بايزي)، حيث يمكن إجراء التنظيم عن طريق اختيار احتمالية مسبقة أكبر على النماذج الأبسط؛ ولكن أيضًا في نظرية التعلم الإحصائي، حيث الهدف هو تقليل كميتين: “الخطر التجريبي” و “الخطر الهيكلي”، والذي يتوافق تقريبًا مع الخطأ في مجموعة التدريب والخطأ المتوقع في البيانات غير المرئية بسبب التجاوز.
10.5. تحليل الثقة للشبكة العصبية
يمكن للشبكات العصبية الخاضعة للإشراف التي تستخدم دالة التكلفة متوسط الخطأ التربيعي (MSE) استخدام الأساليب الإحصائية الرسمية لتحديد ثقة النموذج المُدَرَّب. يمكن استخدام MSE في مجموعة التحقق كتقدير للتباين. يمكن بعد ذلك استخدام هذه القيمة لحساب الفاصل الزمني للثقة لمخرجات الشبكة، على افتراض التوزيع الطبيعي. يكون تحليل الثقة الذي يتم بهذه الطريقة صالحًا إحصائيًا طالما أن توزيع الاحتمالية للمخرجات يظل كما هو ولا يتم تعديل الشبكة.
من خلال تعيين دالة تنشيط softmax، وهي تعميم للدالة اللوجستية، على طبقة الإخراج للشبكة العصبية (أو مكون softmax في شبكة قائمة على المكونات) للمتغيرات المستهدفة الفئوية، يمكن تفسير المخرجات على أنها احتمالات لاحقة. هذا مفيد في التصنيف لأنه يعطي مقياسًا لليقين على التصنيفات.
دالة التنشيط softmax هي:
$$
y_i = \frac{e^{x_i}}{\sum_{j=1}^{c} e^{x_j}}
$$
حيث:
$y_i$: هو الاحتمال اللاحق للفئة $i$. $x_i$: هو ناتج الخلية العصبية $i$. $c$: هو عدد الفئات. الخلاصة: يوضح هذا الفصل الخصائص النظرية الأساسية للشبكات العصبية، بدءًا من قوتها الحسابية وقدرتها على تقريب الدوال، مرورًا بفهم مفاهيم التقارب والتعميم، وصولًا إلى تحليل الثقة في المخرجات. هذه المفاهيم ضرورية لفهم كيفية عمل الشبكات العصبية وكيفية تحسين أدائها، وتكمل الجوانب العملية والتاريخية التي تم استعراضها في الفصول السابقة. الفصل 11
11. انتقادات للشبكات العصبية
على الرغم من النجاحات الكبيرة التي حققتها الشبكات العصبية في العديد من المجالات، فإنها لا تخلو من الانتقادات والتحديات التي يجب أخذها في الاعتبار. تتناول هذه الانتقادات جوانب مختلفة من الشبكات العصبية، بدءًا من متطلبات التدريب الصارمة وصولًا إلى القضايا النظرية والتطبيقية.
11.1. التدريب
أحد أبرز الانتقادات الموجهة للشبكات العصبية، خاصة في مجال الروبوتات، هو الحاجة المفرطة إلى عينات التدريب لإعدادها للعمل في العالم الحقيقي. أي نظام تعلم آلي يحتاج إلى عدد كافٍ من الأمثلة التمثيلية لفهم البنية الأساسية التي تسمح له بالتعميم على الحالات الجديدة. تتضمن الحلول المحتملة لمشكلة التدريب استخدام طرق لخلط عينات التدريب عشوائيًا، أو استخدام خوارزميات تحسين رقمية لا تتخذ خطوات كبيرة عند تعديل الاتصالات الشبكية بعد كل مثال. أيضًا، يمكن تجميع الأمثلة في ما يُعرف بـ “الدفعات الصغيرة” وإدخال خوارزمية المربعات الصغرى المتكررة لـ CMAC.
على سبيل المثال، استخدم دين بوميرلو شبكة عصبية لتدريب مركبة روبوتية على القيادة على أنواع مختلفة من الطرق. وقد كرس جزءًا كبيرًا من بحثه لاستقراء سيناريوهات تدريب متعددة من تجربة تدريب واحدة، والحفاظ على تنوع التدريب السابق حتى لا يصبح النظام متدربًا بشكل مفرط. على سبيل المثال، إذا تم عرض سلسلة من المنعطفات اليمنى، فلا ينبغي أن يتعلم الانعطاف دائمًا إلى اليمين.
11.2. النظرية
يدور ادعاء أساسي للشبكات العصبية حول تجسيدها لمبادئ عامة جديدة وقوية لمعالجة المعلومات، إلا أن هذه المبادئ غالبًا ما تكون غير محددة بوضوح. ويُزعم أنها تنبثق من الشبكة نفسها، مما يسمح بوصف الارتباط الإحصائي البسيط (الوظيفة الأساسية للشبكات العصبية الاصطناعية) على أنه تعلم أو تعرف.
في عام 1997، علق ألكسندر ديودني، وهو كاتب عمود سابق في مجلة “ساينتفك أمريكان”، على أن الشبكات العصبية الاصطناعية تتميز بجودة “شيء مقابل لا شيء”، مما يضفي عليها “هالة غريبة من الكسل ونقص واضح في الفضول بشأن مدى جودة هذه الأنظمة الحاسوبية”. لا يتدخل أي يد (أو عقل) بشري؛ يتم العثور على الحلول كما لو كان ذلك عن طريق السحر؛ ولا يبدو أن أحدًا قد تعلم أي شيء.
يرى البعض أن هذه الانتقادات غير منصفة، حيث تم استخدام الشبكات العصبية بنجاح للتعامل مع العديد من المهام المعقدة والمتنوعة. تتراوح هذه المهام بين تسيير الطائرات ذاتيًا واكتشاف الاحتيال في بطاقات الائتمان وإتقان لعبة “جو”.
علق الكاتب التقني روجر بريدجمان قائلاً: “إن الشبكات العصبية، على سبيل المثال، ليست فقط موضع تساؤل لأنها حظيت بدعاية مفرطة، ولكن أيضًا لأنك قد تنشئ شبكة ناجحة دون فهم كيفية عملها. فمجموعة الأرقام التي تلتقط سلوكها ستكون على الأرجح “جدولًا معتمًا وغير قابل للقراءة … لا قيمة له كمورد علمي”.
على الرغم من إعلانه المؤكد أن العلم ليس تكنولوجيا، يبدو أن ديودني يهاجم هنا الشبكات العصبية باعتبارها علمًا سيئًا، في حين أن معظم أولئك الذين يبتكرونها يحاولون فقط أن يكونوا مهندسين جيدين. إن الجدول غير القابل للقراءة الذي يمكن لآلة مفيدة قراءته سيظل ذا قيمة كبيرة.”
على الرغم من صعوبة تحليل ما تعلمته الشبكة العصبية الاصطناعية، إلا أنه أسهل بكثير من تحليل ما تعلمته الشبكة العصبية البيولوجية. علاوة على ذلك، ساهم التركيز الأخير على قابلية تفسير الذكاء الاصطناعي في تطوير طرق، لا سيما تلك القائمة على آليات الانتباه، لتصور وشرح الشبكات العصبية المتعلمة. بالإضافة إلى ذلك، يكشف الباحثون المشاركون في استكشاف خوارزميات التعلم للشبكات العصبية تدريجيًا عن مبادئ عامة تسمح لآلة التعلم بالنجاح. على سبيل المثال، كتب بينجيو وليكون (2007) مقالًا حول التعلم المحلي مقابل غير المحلي، بالإضافة إلى الهندسة المعمارية الضحلة مقابل العميقة.
تستخدم الأدمغة البيولوجية كلاً من الدوائر الضحلة والعميقة كما هو موضح في تشريح الدماغ، وتعرض مجموعة واسعة من الثبات. جادل وينج (2007) بأن الدماغ يقوم بتوصيل نفسه إلى حد كبير وفقًا لإحصائيات الإشارة، وبالتالي، لا يمكن لسلسلة متتالية أن تلتقط جميع التبعيات الإحصائية الرئيسية.
11.3. التكنولوجيا
تتطلب الشبكات العصبية الكبيرة والفعالة موارد حوسبة كبيرة. بينما يمتلك الدماغ أجهزة مصممة خصيصًا لمهمة معالجة الإشارات من خلال رسم بياني للخلايا العصبية، فإن محاكاة حتى خلية عصبية مبسطة على بنية فون نيومان قد تستهلك كميات هائلة من الذاكرة والتخزين. علاوة على ذلك، يحتاج المصمم غالبًا إلى إرسال الإشارات من خلال العديد من هذه الاتصالات والخلايا العصبية المرتبطة بها، الأمر الذي يتطلب قوة معالجة مركزية ووقتًا هائلين.
يجادل البعض بأن عودة ظهور الشبكات العصبية في القرن الحادي والعشرين يُعزى إلى حد كبير إلى التطورات في الأجهزة: فمن عام 1991 إلى عام 2015، زادت قوة الحوسبة، خاصة تلك التي توفرها وحدات معالجة الرسوميات للأغراض العامة (GPGPUs)، بحوالي مليون ضعف، مما جعل خوارزمية الانتشار الخلفي القياسية ممكنة لتدريب الشبكات التي تكون أعمق بعدة طبقات من ذي قبل. يمكن أن يقلل استخدام المسرعات مثل FPGAs ووحدات معالجة الرسوميات من أوقات التدريب من شهور إلى أيام.
يعالج الهندسة العصبية أو الشبكة العصبية الفيزيائية صعوبة الأجهزة بشكل مباشر، من خلال بناء شرائح غير فون نيومان لتنفيذ الشبكات العصبية مباشرة في الدوائر. هناك نوع آخر من الرقائق المحسنة لمعالجة الشبكات العصبية يسمى وحدة معالجة الموتر، أو TPU.
11.4. أمثلة عملية مضادة
إن تحليل ما تعلمته الشبكة العصبية الاصطناعية أسهل بكثير من تحليل ما تعلمته الشبكة العصبية البيولوجية. علاوة على ذلك، يكشف الباحثون المشاركون في استكشاف خوارزميات التعلم للشبكات العصبية تدريجيًا عن مبادئ عامة تسمح لآلة التعلم بالنجاح. على سبيل المثال، التعلم المحلي مقابل غير المحلي والهندسة المعمارية الضحلة مقابل العميقة.
11.5. الأساليب الهجينة
يقول أنصار النماذج الهجينة (التي تجمع بين الشبكات العصبية والأساليب الرمزية) إن مثل هذا المزيج يمكن أن يلتقط آليات العقل البشري بشكل أفضل.
11.6. تحيز مجموعة البيانات
تعتمد الشبكات العصبية على جودة البيانات التي يتم تدريبها عليها، وبالتالي يمكن أن تؤدي البيانات ذات الجودة المنخفضة والتي تتسم بتمثيل غير متوازن إلى تعلم النموذج وإدامة التحيزات المجتمعية. تصبح هذه التحيزات الموروثة ذات أهمية خاصة عندما يتم دمج الشبكات العصبية الاصطناعية في سيناريوهات العالم الحقيقي حيث قد تكون بيانات التدريب غير متوازنة بسبب ندرة البيانات الخاصة بعرق أو جنس أو سمة أخرى محددة. يمكن أن يؤدي هذا الخلل إلى عدم كفاية تمثيل النموذج وفهمه للمجموعات الممثلة تمثيلاً ناقصًا، مما يؤدي إلى نتائج تمييزية تؤدي إلى تفاقم أوجه عدم المساواة المجتمعية، خاصة في تطبيقات مثل التعرف على الوجوه وعمليات التوظيف وإنفاذ القانون.
على سبيل المثال، في عام 2018، اضطرت أمازون إلى التخلي عن أداة التوظيف لأن النموذج فضل الرجال على النساء في الوظائف في هندسة البرمجيات بسبب العدد الأكبر من العاملين الذكور في هذا المجال. كان البرنامج يعاقب أي سيرة ذاتية تحتوي على كلمة “امرأة” أو اسم أي كلية نسائية. ومع ذلك، يمكن أن يساعد استخدام البيانات الاصطناعية في تقليل تحيز مجموعة البيانات وزيادة التمثيل في مجموعات البيانات.
في الختام، على الرغم من أن الشبكات العصبية تواجه بعض التحديات والانتقادات، إلا أن البحث والتطوير المستمر يعملان على معالجة هذه القضايا، مما يجعلها أكثر قوة وموثوقية في التطبيقات المختلفة. من خلال فهم القيود ونقاط الضعف، يمكننا استخدام الشبكات العصبية بشكل مسؤول وفعال لتحقيق أهدافنا.
الفصل 12 الفصل الثاني عشر: معرض صور الشبكات العصبية يضم هذا الفصل مجموعة من الصور التوضيحية التي تساعد على فهم البنية الأساسية للشبكات العصبية الاصطناعية وكيفية تنظيمها. تهدف هذه الصور إلى تجسيد المفاهيم النظرية التي تم تناولها في الفصول السابقة، وتقديم رؤية بصرية تساعد على استيعاب أنواع الشبكات المختلفة وتكويناتها.
- شبكة عصبية اصطناعية ذات طبقة تغذية أمامية واحدة: الوصف: توضح هذه الصورة أبسط أنواع الشبكات العصبية، حيث تتكون من طبقة مدخلات وطبقة مخرجات فقط. يتم توصيل كل مدخل بالكامل بجميع العقد في طبقة المخرجات. التوضيح: يتم تمثيل المدخلات بـ ‘x’ والمخرجات بـ ‘y’. يتم حساب قيمة كل مخرج (y_q) عن طريق ضرب المدخلات (x_i) بأوزانها الخاصة (w_iq) ، وخصم التحيز (b_q) ، ثم تطبيق دالة تنشيط (K) على النتيجة النهائية. الأهمية: تعتبر هذه الشبكة نقطة بداية لفهم كيفية تدفق المعلومات في الشبكات العصبية، وكيف يتم استخدام الأوزان والتحيزات لتعديل الإشارات.
- شبكة عصبية اصطناعية ذات طبقتين تغذية أمامية: الوصف: تعرض هذه الصورة شبكة عصبية أكثر تعقيداً، حيث تحتوي على طبقة مخفية إضافية بين طبقة المدخلات والمخرجات. هذا النوع من الشبكات قادر على نمذجة علاقات أكثر تعقيداً بين البيانات. التوضيح: تظهر الصورة كيف يتم توصيل المدخلات بطبقة مخفية، ثم توصيل مخرجات الطبقة المخفية بطبقة المخرجات النهائية. الأهمية: يوضح هذا المثال كيف يمكن للطبقات المخفية أن تساعد الشبكة على استخلاص ميزات أكثر تجريدًا من البيانات، مما يحسن من قدرتها على التعميم.
- شبكة عصبية اصطناعية عامة: الوصف: تقدم هذه الصورة مخططًا عامًا لشبكة عصبية اصطناعية، مع طبقات متعددة وعلاقات اتصال متنوعة. التوضيح: يمكن رؤية كيف تتفاعل الطبقات المختلفة مع بعضها البعض، وكيف يمكن أن تكون هناك أنواع مختلفة من الاتصالات. الأهمية: تهدف الصورة إلى إظهار التنوع والمرونة في بنية الشبكات العصبية، وكيف يمكن تصميمها لتلبية احتياجات التطبيقات المختلفة.
- مخطط تبعية الشبكة العصبية الاصطناعية: الوصف: يوضح هذا الرسم البياني العلاقات التبعية بين الخلايا العصبية في الشبكة، وكيف تعتمد مخرجات خلية عصبية معينة على مدخلات من خلايا أخرى. التوضيح: يظهر الرسم البياني تدفق البيانات من المدخلات إلى المخرجات، مع التركيز على كيفية تأثير كل عقدة على العقد الأخرى المتصلة بها. الأهمية: يساعد هذا المخطط على فهم كيفية انتشار المعلومات وتعديلها داخل الشبكة، وهو أمر أساسي لفهم عملية التعلم والتدريب.
- شبكة عصبية ذات طبقة تغذية أمامية واحدة (4 مدخلات، 6 عقد مخفية، 2 مخرجات): الوصف: مثال محدد لشبكة عصبية ذات طبقة واحدة مخفية، حيث تستقبل أربعة مدخلات، وتعالجها بست عقد مخفية، ثم تنتج مخرجين. التوضيح: يتم استخدام هذا النوع من الشبكات في تطبيقات التحكم، حيث يتم تحويل حالة الموقع والاتجاه إلى قيم تحكم في العجلات. الأهمية: يوضح هذا المثال التطبيقي كيف يمكن استخدام الشبكات العصبية في التحكم الآلي واتخاذ القرارات.
- شبكة عصبية ذات طبقتين تغذية أمامية (8 مدخلات، 2×8 عقد مخفية، 2 مخرجات): الوصف: مثال لشبكة عصبية ذات طبقتين مخفيتين، تستقبل ثمانية مدخلات، وتعالجها بطبقتين مخفيتين كل منهما مكون من 8 عقد، ثم تنتج مخرجين. التوضيح: تستخدم هذه الشبكة معلومات الموقع والاتجاه، بالإضافة إلى قيم بيئية أخرى، لتوليد قيم التحكم في المحركات. الأهمية: هذا المثال يوضح كيف يمكن للشبكات العصبية ذات الطبقات المتعددة أن تتعامل مع بيانات أكثر تعقيداً وتنتج استجابات تحكمية متطورة.
- هيكل خط الأنابيب المتوازي لشبكة CMAC العصبية: الوصف: توضح هذه الصورة الهيكل الخاص بشبكة التحكم العصبي للمفصلة (CMAC) مع التركيز على طبيعتها المتوازية. التوضيح: تتميز هذه الشبكة بقدرتها على التقارب في خطوة واحدة فقط، مما يجعلها فعالة في بعض التطبيقات. الأهمية: يقدم هذا المثال نوعاً مختلفاً من بنية الشبكات العصبية وطريقة عملها. الخلاصة: يعد هذا المعرض المرئي للشبكات العصبية جزءًا حيويًا من المقال، حيث يوفر للقارئ فهمًا أعمق و أكثر رسوخاً للمفاهيم النظرية التي تم تناولها. من خلال هذه الصور، يمكن استيعاب البنية الأساسية للشبكات العصبية بسهولة، مما يسهل فهم كيفية عملها وتطبيقها في مختلف المجالات. هذه التوضيحات المرئية تكمل الشرح النظري، وتساهم في تحقيق فهم شامل ومتكامل للشبكات العصبية الاصطناعية.
الفصل 13
الفصل الثالث عشر: التطورات الحديثة والاتجاهات المستقبلية
شهدت الشبكات العصبية الاصطناعية (ANNs) تطورات ملحوظة، خاصة في قدرتها على نمذجة الأنظمة المعقدة، والتعامل مع مجموعات البيانات الكبيرة، والتكيف مع أنواع مختلفة من التطبيقات. وقد تميز تطورها على مدى العقود القليلة الماضية بتنوع واسع في التطبيقات في مجالات مثل معالجة الصور، والتعرف على الكلام، ومعالجة اللغة الطبيعية، والتمويل، والطب.
13.1. معالجة الصور
في مجال معالجة الصور، تستخدم الشبكات العصبية الاصطناعية في مهام مثل تصنيف الصور، والتعرف على الكائنات، وتجزئة الصور. على سبيل المثال، أصبحت الشبكات العصبية التلافيفية العميقة (CNNs) ذات أهمية كبيرة في التعرف على الأرقام المكتوبة بخط اليد، حيث حققت أداءً متفوقًا. يوضح هذا قدرة الشبكات العصبية الاصطناعية على معالجة وتفسير المعلومات البصرية المعقدة بفعالية، مما يؤدي إلى تقدم في مجالات تتراوح من المراقبة الآلية إلى التصوير الطبي.
13.2. التعرف على الكلام
من خلال نمذجة الإشارات الصوتية، تستخدم الشبكات العصبية الاصطناعية في مهام مثل تحديد المتحدث وتحويل الكلام إلى نص. وقد أدخلت معماريات الشبكات العصبية العميقة تحسينات كبيرة في التعرف المستمر على الكلام بمفردات كبيرة، متجاوزة التقنيات التقليدية. وقد مكنت هذه التطورات من تطوير أنظمة أكثر دقة وفعالية تعمل بالصوت، مما يعزز واجهات المستخدم في المنتجات التقنية.
13.3. معالجة اللغة الطبيعية
في مجال معالجة اللغة الطبيعية، تستخدم الشبكات العصبية الاصطناعية في مهام مثل تصنيف النصوص، وتحليل المشاعر، والترجمة الآلية. وقد مكنت من تطوير نماذج يمكنها الترجمة بدقة بين اللغات، وفهم السياق والمشاعر في البيانات النصية، وتصنيف النصوص بناءً على المحتوى. وهذا له آثار على خدمة العملاء الآلية، والتحكم في المحتوى، وتقنيات فهم اللغة.
13.4. أنظمة التحكم
في مجال أنظمة التحكم، تستخدم الشبكات العصبية الاصطناعية لنمذجة الأنظمة الديناميكية لمهام مثل تحديد النظام، وتصميم التحكم، والتحسين. على سبيل المثال، تعتبر الشبكات العصبية ذات التغذية الأمامية العميقة مهمة في تحديد النظام وتطبيقات التحكم.
13.5. التمويل
تستخدم الشبكات العصبية الاصطناعية في التنبؤ بسوق الأوراق المالية وتقييم الجدارة الائتمانية:
في مجال الاستثمار: يمكن للشبكات العصبية الاصطناعية معالجة كميات هائلة من البيانات المالية، والتعرف على الأنماط المعقدة، والتنبؤ باتجاهات سوق الأوراق المالية، مما يساعد المستثمرين ومديري المخاطر في اتخاذ قرارات مستنيرة. في مجال تقييم الجدارة الائتمانية: تقدم الشبكات العصبية الاصطناعية تقييمات شخصية تعتمد على البيانات للجدارة الائتمانية، مما يحسن دقة التنبؤات بالتقصير ويؤتمت عملية الإقراض. تتطلب الشبكات العصبية الاصطناعية بيانات عالية الجودة وضبطًا دقيقًا، وقد تشكل طبيعتها “الصندوق الأسود” تحديات في التفسير. ومع ذلك، تشير التطورات المستمرة إلى أن الشبكات العصبية الاصطناعية ستستمر في لعب دور مهم في مجال التمويل، وتقديم رؤى قيمة وتعزيز استراتيجيات إدارة المخاطر.
13.6. الطب
تتمتع الشبكات العصبية الاصطناعية بالقدرة على معالجة وتحليل مجموعات البيانات الطبية الضخمة. فهي تعزز دقة التشخيص، خاصة من خلال تفسير التصوير الطبي المعقد للكشف المبكر عن الأمراض، ومن خلال التنبؤ بنتائج المرضى لتخطيط العلاج الشخصي. في اكتشاف الأدوية، تسرع الشبكات العصبية الاصطناعية من تحديد المرشحين المحتملين للأدوية وتتنبأ بفعاليتها وسلامتها، مما يقلل بشكل كبير من وقت وتكاليف التطوير. بالإضافة إلى ذلك، فإن تطبيقها في مجال الطب الشخصي وتحليل بيانات الرعاية الصحية يسمح بعلاجات مصممة خصيصًا وإدارة فعالة لرعاية المرضى. تهدف الأبحاث الجارية إلى معالجة التحديات المتبقية مثل خصوصية البيانات وقابلية تفسير النموذج، بالإضافة إلى توسيع نطاق تطبيقات الشبكات العصبية الاصطناعية في الطب.
13.7. إنشاء المحتوى
تستخدم الشبكات العصبية الاصطناعية مثل الشبكات التوليدية الخصومية (GANs) والمحولات في إنشاء المحتوى عبر العديد من الصناعات. وذلك لأن نماذج التعلم العميق قادرة على تعلم أسلوب الفنان أو الموسيقي من مجموعات بيانات ضخمة وإنشاء أعمال فنية وتأليفات موسيقية جديدة تمامًا. على سبيل المثال، DALL-E هي شبكة عصبية عميقة مدربة على 650 مليون زوج من الصور والنصوص عبر الإنترنت يمكنها إنشاء أعمال فنية بناءً على النص الذي يدخله المستخدم. في مجال الموسيقى، تُستخدم المحولات لإنشاء موسيقى أصلية للإعلانات التجارية والأفلام الوثائقية من خلال شركات مثل AIVA وJukedeck. في صناعة التسويق، تُستخدم النماذج التوليدية لإنشاء إعلانات مخصصة للمستهلكين. بالإضافة إلى ذلك، تتعاون شركات الأفلام الكبرى مع شركات التكنولوجيا لتحليل النجاح المالي للفيلم، مثل الشراكة بين Warner Bros وشركة التكنولوجيا Cinelytic التي تأسست في عام 2020. علاوة على ذلك، وجدت الشبكات العصبية استخدامات في إنشاء ألعاب الفيديو، حيث يمكن للشخصيات غير القابلة للعب (NPCs) اتخاذ قرارات بناءً على جميع الشخصيات الموجودة حاليًا في اللعبة.
خلاصة: يستمر مجال الشبكات العصبية الاصطناعية في التطور بوتيرة متسارعة، مدفوعًا بالابتكارات في الخوارزميات والمعماريات والأجهزة. ومع استمرار هذه التطورات، من المتوقع أن تلعب الشبكات العصبية الاصطناعية دورًا متزايد الأهمية في تشكيل مستقبل التكنولوجيا والعلوم والصناعة. إن فهم هذه التطورات والاتجاهات المستقبلية أمر بالغ الأهمية للباحثين والمهندسين والممارسين الذين يسعون إلى تسخير القوة الكاملة للشبكات العصبية الاصطناعية في مجموعة واسعة من التطبيقات.
اترك تعليقاً