جدول المحتويات

تحليل النصوص في الذكاء الاصطناعي: الفروقات الرئيسية بين تقسيم النصوص (Chunking) وترميزها (Tokenization)

مقدمة

في عالم معالجة اللغات الطبيعية والذكاء الاصطناعي، غالباً ما يتم الخلط بين مفهومين أساسيين: تقسيم النصوص (Chunking) و ترميزها (Tokenization). على الرغم من أن كليهما ينطوي على تقسيم النص إلى أجزاء أصغر، إلا أنهما يخدمان أغراضاً مختلفة تماماً ويعملان على مستويات مختلفة. فهم هذه الاختلافات ليس مجرد مسألة أكاديمية، بل هو أمر بالغ الأهمية لبناء تطبيقات ذكاء اصطناعي فعّالة. يمكن تشبيه ذلك بصنع شطيرة: الترميز هو مثل تقطيع المكونات إلى قطع صغيرة، بينما تقسيم النصوص هو مثل تنظيم هذه القطع في مجموعات منطقية لتسهيل تناولها. كلاهما ضروري، ولكنهما يحلان مشكلات مختلفة.

ما هو ترميز النصوص (Tokenization)؟

ترميز النصوص هو عملية تقسيم النص إلى أصغر وحدات ذات معنى يمكن أن يفهمها نموذج الذكاء الاصطناعي. تُعرف هذه الوحدات بالرموز (Tokens)، وهي اللبنات الأساسية التي تعمل بها نماذج اللغات. يمكن اعتبار الرموز بمثابة “الكلمات” في قاموس الذكاء الاصطناعي، على الرغم من أنها غالباً ما تكون أصغر من الكلمات الفعلية. هناك عدة طرق لإنشاء الرموز:

الترميز على مستوى الكلمات: يقسم النص عند المسافات وعلامات الترقيم. وهو بسيط، لكنه يسبب مشاكل مع الكلمات النادرة التي لم يسبق للنموذج رؤيتها من قبل.
الترميز الجزئي للكلمات (Subword Tokenization): أكثر تطوراً واستخداماً على نطاق واسع اليوم. تقوم طرق مثل (Byte Pair Encoding (BPE)، و WordPiece، و SentencePiece بتقسيم الكلمات إلى أجزاء أصغر بناءً على تكرار ظهور مجموعات الأحرف في بيانات التدريب. هذا النهج يعالج الكلمات الجديدة أو النادرة بشكل أفضل بكثير.
الترميز على مستوى الأحرف: يعامل كل حرف كرمز. وهو بسيط، ولكنه ينتج تسلسلات طويلة جداً يصعب على النماذج معالجتها بكفاءة.

مثال عملي:

النص الأصلي: “نماذج الذكاء الاصطناعي تعالج النصوص بكفاءة.”

الرموز على مستوى الكلمات: [“نماذج”، “الذكاء”، “الاصطناعي”، “تعالج”، “النصوص”، “بكفاءة”]

الرموز الجزئية للكلمات: [“نماذج”، “الذكاء”، “الاصطناع”، “ي”، “تعالج”، “النصوص”، “بكفاءة”]

لاحظ كيف قام الترميز الجزئي للكلمات بتقسيم “الاصطناعي” إلى “الاصطناع” و “ي” لأن هذا النمط يظهر بشكل متكرر في بيانات التدريب. هذا يساعد النموذج على فهم الكلمات ذات الصلة مثل “اصطناعية” أو “اصطناعياً” حتى لو لم يرها من قبل.

ما هو تقسيم النصوص (Chunking)؟

يتبع تقسيم النصوص نهجاً مختلفاً تماماً. بدلاً من تقسيم النص إلى قطع صغيرة، فإنه يجمع النص في مقاطع أكبر ومتماسكة تحافظ على المعنى والسياق. عندما تقوم ببناء تطبيقات مثل روبوتات الدردشة أو أنظمة البحث، تحتاج إلى هذه المقاطع الأكبر للحفاظ على تدفق الأفكار. فكر في قراءة ورقة بحثية. لن ترغب في أن تكون كل جملة متناثرة بشكل عشوائي – سترغب في تجميع الجمل ذات الصلة معاً حتى تصبح الأفكار منطقية. هذا هو بالضبط ما يفعله تقسيم النصوص لأنظمة الذكاء الاصطناعي.

طرق تقسيم النصوص:

تقسيم النصوص بطول ثابت: يُنشئ مقاطع ذات حجم محدد (مثل 500 كلمة أو 1000 حرف). وهو متوقع، ولكنه قد يقسم الأفكار المترابطة بشكل غير لائق أحياناً.
التقسيم الدلالي: أكثر ذكاءً – فهو يبحث عن نقاط فاصلة طبيعية حيث تتغير المواضيع، باستخدام الذكاء الاصطناعي لفهم متى تنتقل الأفكار من مفهوم إلى آخر.
التقسيم التكراري: يعمل بشكل هرمي، محاولاً أولاً تقسيم الفقرات، ثم الجمل، ثم الوحدات الأصغر إذا لزم الأمر.
تقسيم النافذة المنزلقة: يُنشئ مقاطع متداخلة لضمان عدم فقدان السياق المهم عند الحدود.

الفروقات الرئيسية المهمة

فهم متى تستخدم كل نهج يجعل كل الفرق في تطبيقات الذكاء الاصطناعي الخاصة بك:

ما تقوم به	الترميز (Tokenization)	تقسيم النصوص (Chunking)
الحجم	قطع صغيرة (كلمات، أجزاء من كلمات)	قطع أكبر (جمل، فقرات)
الهدف	جعل النص قابلاً للهضم لنماذج الذكاء الاصطناعي	الحفاظ على المعنى للبشر وللذكاء الاصطناعي
متى تستخدمه	تدريب النماذج، معالجة المدخلات	أنظمة البحث، الإجابة على الأسئلة
ما تقوم بتحسينه	سرعة المعالجة، حجم المفردات	الحفاظ على السياق، دقة الاسترجاع

أهمية ذلك للتطبيقات الحقيقية

لأداء نموذج الذكاء الاصطناعي

يؤثر الترميز بشكل مباشر على التكلفة وسرعة تشغيل النظام. تفرض نماذج مثل GPT-4 رسومًا حسب الرمز، لذا فإن الترميز الفعال يوفر المال. تختلف حدود النماذج الحالية:

GPT-4: حوالي 128,000 رمز
Claude 3.5: حتى 200,000 رمز
Gemini 2.0 Pro: حتى 2 مليون رمز

تُظهر الأبحاث الحديثة أن النماذج الأكبر تعمل بشكل أفضل مع مفردات أكبر. على سبيل المثال، بينما يستخدم LLaMA-2 70B حوالي 32,000 رمز مختلف، فمن المحتمل أن يعمل بشكل أفضل مع حوالي 216,000 رمز. هذا مهم لأن حجم المفردات المناسب يؤثر على الأداء والكفاءة على حد سواء.

لأنظمة البحث والإجابة على الأسئلة

يمكن أن يحدد إستراتيجية تقسيم النصوص نجاح أو فشل نظامك (RAG) (Retrieval-Augmented Generation). إذا كانت مقاطعك صغيرة جدًا، فستفقد السياق. إذا كانت كبيرة جدًا، فستثقل كاهل النموذج بمعلومات غير ذات صلة. إذا قمت بذلك بشكل صحيح، فسوف يوفر نظامك إجابات دقيقة ومفيدة. إذا قمت بذلك بشكل خاطئ، فستحصل على نتائج غير منطقية. وجدت الشركات التي تبني أنظمة ذكاء اصطناعي متقدمة أن استراتيجيات تقسيم النصوص الذكية تقلل بشكل كبير من تلك الحالات المحبطة التي يختلق فيها الذكاء الاصطناعي الحقائق أو يعطي إجابات غير منطقية.

أين تستخدم كل نهج؟

الترميز ضروري لـ:

تدريب نماذج جديدة – لا يمكنك تدريب نموذج لغة دون ترميز بيانات التدريب أولاً. تؤثر استراتيجية الترميز على كل شيء حول مدى جودة تعلم النموذج.
ضبط النماذج الحالية بدقة – عندما تقوم بتكييف نموذج مدرب مسبقاً لمجالك المحدد (مثل النصوص الطبية أو القانونية)، تحتاج إلى مراعاة ما إذا كان الترميز الحالي يعمل من أجل مفرداتك المتخصصة.
التطبيقات متعددة اللغات – يكون الترميز الجزئي للكلمات مفيدًا بشكل خاص عند العمل مع اللغات التي لها بنى كلمات معقدة أو عند بناء أنظمة متعددة اللغات.

تقسيم النصوص مهم لـ:

بناء قواعد بيانات المعرفة للشركة – عندما تريد أن يطرح الموظفون أسئلة ويحصلون على إجابات دقيقة من المستندات الداخلية الخاصة بك، يضمن تقسيم النصوص الصحيح استرجاع المعلومات ذات الصلة والكاملة.
تحليل المستندات على نطاق واسع – سواء كنت تقوم بمعالجة عقود قانونية أو أوراق بحثية أو تعليقات العملاء، يساعد تقسيم النصوص في الحفاظ على بنية المستند ومعناه.
أنظمة البحث – يتجاوز البحث الحديث مطابقة الكلمات الرئيسية. يساعد تقسيم النصوص الدلالي الأنظمة على فهم ما يريده المستخدمون حقاً واسترجاع المعلومات الأكثر صلة.

أفضل الممارسات الحالية (ما الذي يعمل بالفعل)

بعد مشاهدة العديد من التنفيذات في العالم الحقيقي، إليك ما يميل إلى العمل:

لتقسيم النصوص:

ابدأ بمقاطع تتراوح من 512 إلى 1024 رمزًا لمعظم التطبيقات.
أضف 10-20٪ من التداخل بين المقاطع للحفاظ على السياق.
استخدم الحدود الدلالية عند الإمكان (نهاية الجمل، الفقرات).
اختبر مع حالات الاستخدام الفعلية وقم بالتعديل بناءً على النتائج.
راقب الهلوسة وقم بتعديل نهجك وفقًا لذلك.

للترميز:

استخدم طرقًا راسخة (BPE، WordPiece، SentencePiece) بدلاً من إنشاء طرقك الخاصة.
ضع مجال عملك في الاعتبار – قد تحتاج النصوص الطبية أو القانونية إلى نهج متخصصة.
راقب معدلات المفردات غير الموجودة في الإنتاج.
تحقيق التوازن بين الضغط (عدد أقل من الرموز) والحفاظ على المعنى.

ملخص

الترميز وتقسيم النصوص ليسا تقنيتين متنافستين – بل هما أداتان متكاملتان تحلان مشكلات مختلفة. يجعل الترميز النص قابلاً للهضم لنماذج الذكاء الاصطناعي، بينما يحافظ تقسيم النصوص على المعنى للتطبيقات العملية. مع تطور أنظمة الذكاء الاصطناعي، تستمر كلتا التقنيتين في التطور. تزداد نوافذ السياق اتساعاً، وتصبح المفردات أكثر كفاءة، وتصبح استراتيجيات تقسيم النصوص أكثر ذكاءً في الحفاظ على المعنى الدلالي. المفتاح هو فهم ما تحاول تحقيقه. هل تبني روبوت دردشة؟ ركز على استراتيجيات تقسيم النصوص التي تحافظ على سياق المحادثة. هل تقوم بتدريب نموذج؟ حسّن ترميزك من أجل الكفاءة والتغطية. هل تبني نظام بحث مؤسسي؟ ستحتاج إلى كليهما – ترميز ذكي من أجل الكفاءة وتقسيم ذكي من أجل الدقة.

المصدر: MarkTechPost

تحليل النصوص في الذكاء الاصطناعي: الفروقات الرئيسية بين تقسيم النصوص (Chunking) وترميزها (Tokenization)

تحليل النصوص في الذكاء الاصطناعي: الفروقات الرئيسية بين تقسيم النصوص (Chunking) وترميزها (Tokenization)

مقدمة

ما هو ترميز النصوص (Tokenization)؟

ما هو تقسيم النصوص (Chunking)؟

الفروقات الرئيسية المهمة