مجموعة أدوات Qwen3-ASR: تحويل النصوص الصوتية الطويلة بسهولة

تُقدّم شركة Qwen مجموعة أدوات قوية مفتوحة المصدر تُدعى Qwen3-ASR-Toolkit، وهي عبارة عن أداة سطر أوامر بلغة بايثون مرخصة بموجب رخصة MIT. تُمكّن هذه المجموعة المطورين من تجاوز قيود واجهة برمجة التطبيقات Qwen3-ASR-Flash، والتي تحدّ من مدة الملفات الصوتية إلى 3 دقائق وحجمها إلى 10 ميغابايت لكل طلب. وتحقق ذلك من خلال تقسيم الملفات الصوتية بذكاء باستخدام تقنية كشف النشاط الصوتي (VAD)، وإجراء مكالمات متوازية لواجهة البرمجة، بالإضافة إلى معالجة وتوحيد معدل أخذ العينات وصيغة الملفات باستخدام FFmpeg.

مميزات مجموعة الأدوات:

  • معالجة الملفات الصوتية الطويلة: تقسّم هذه الأداة الملفات الصوتية الطويلة إلى أجزاء أصغر باستخدام تقنية كشف النشاط الصوتي (VAD)، وذلك عند فترات التوقف الطبيعية في الكلام، مع الحفاظ على كل جزء ضمن حدود واجهة برمجة التطبيقات. ثم تقوم بدمج النتائج بترتيبها الصحيح.

  • إنتاجية متوازية: تستخدم مجموعة الأدوات مجموعة من الخيوط لتوزيع أجزاء الملفات الصوتية على نقاط نهاية DashScope بشكل متزامن، مما يحسّن من زمن الاستجابة بشكل ملحوظ، خاصةً مع الملفات الصوتية الطويلة. يمكنك التحكم في مستوى التزامن باستخدام خيار -j/--num-threads.

  • توحيد الصيغة ومعدل أخذ العينات: تدعم الأداة مجموعة واسعة من صيغ الملفات الصوتية والفيديو (مثل MP4، MOV، MKV، MP3، WAV، M4A، إلخ)، وتقوم بتحويلها تلقائيًا إلى الصيغة المطلوبة من قبل واجهة برمجة التطبيقات (صوت أحادي 16 كيلوهيرتز) باستخدام FFmpeg. يجب تثبيت FFmpeg على نظامك.

  • تنظيف النص وإضافة السياق: تتضمن الأداة عمليات ما بعد المعالجة لتقليل التكرارات والأخطاء، وتدعم إضافة سياق ل توجيه عملية التعرف على الكلام نحو مصطلحات محددة. كما توفر واجهة برمجة التطبيقات الأساسية خيارات لكشف اللغة وتحويل النص المعكوس (ITN).

البدء السريع:

1. تثبيت المتطلبات:

  • FFmpeg: يجب تثبيت FFmpeg على نظامك.
    • macOS: brew install ffmpeg
    • Ubuntu/Debian: sudo apt update && sudo apt install -y ffmpeg

2. تثبيت مجموعة الأدوات:

pip install qwen3-asr-toolkit

3. تهيئة بيانات الاعتماد:

export DASHSCOPE_API_KEY="sk-..."

4. التشغيل:

  • الاستخدام الأساسي: (ملف فيديو محلي، 4 خيوط افتراضيًا)
qwen3-asr -i "/path/to/lecture.mp4"
  • زيادة سرعة المعالجة: (زيادة التزامن وتحديد مفتاح واجهة برمجة التطبيقات بشكل صريح)
qwen3-asr -i "/path/to/podcast.wav" -j 8 -key "sk-..."
  • تحسين دقة التعرف باستخدام السياق:
qwen3-asr -i "/path/to/earnings_call.m4a" -c "tickers, CFO name, product names, Q3 revenue guidance"

الوسائط المهمة:

  • -i/--input-file: مسار الملف (محلي أو عبر HTTP/HTTPS).
  • -j/--num-threads: عدد الخيوط.
  • -c/--context: السياق.
  • -key/--dashscope-api-key: مفتاح واجهة برمجة التطبيقات.
  • -t/--tmp-dir: مسار مؤقت.
  • -s/--silence: مدة الصمت.

يتم عرض الناتج وحفظه كملف <input_basename>.txt.

بنية خط الأنابيب:

  1. تحميل الملف المحلي أو عبر الرابط.
  2. استخدام كشف النشاط الصوتي (VAD) للعثور على حدود الصمت.
  3. تقسيم الملف إلى أجزاء أصغر ضمن حدود واجهة برمجة التطبيقات.
  4. إعادة أخذ العينات إلى صوت أحادي 16 كيلوهيرتز.
  5. إرسال الأجزاء بشكل متوازٍ إلى DashScope.
  6. تجميع الأجزاء بالترتيب.
  7. معالجة النص (إزالة التكرارات).
  8. إخراج النصوص المكتوبة.

الخلاصة:

تُسهّل مجموعة أدوات Qwen3-ASR-Toolkit عملية تحويل النصوص الصوتية الطويلة باستخدام واجهة برمجة تطبيقات Qwen3-ASR-Flash، من خلال دمج تقنيات تقسيم الملفات القائمة على كشف النشاط الصوتي، وتوحيد الصيغة باستخدام FFmpeg، وإرسال الطلبات بشكل متوازٍ. يُتيح ذلك للمطورين إنشاء خطوط أنابيب قوية وفعّالة لمعالجة الملفات الصوتية الكبيرة. وللحصول على أفضل أداء، يُنصح بتثبيت إصدار محدد من الحزمة، والتحقق من نقاط النهاية والمفاتيح، وضبط عدد الخيوط وفقًا لشبكتك.

روابط مفيدة:

  • [صفحة GitHub](رابط GitHub)
  • [تدوينات](رابط تدوينات)
  • [تويتر](رابط تويتر)
  • [ريديت](رابط ريديت)
  • [النشرة البريدية](رابط النشرة البريدية)

المصدر: MarkTechPost